Indexación de páginas web y posicionamiento.
Indexación de páginas web y posicionamiento.
- ¿Porqué es tan importante?
- Un poco de historia
- Funcionamiento de los buscadores. Google. Yahoo. MSN Search. Spiders.
- Estadísticas web
- Indexación y posicionamiento
- Como optimizar la indexación.
- Como posicionar bien un sitio
- Indexación de páginas en Flash
- Accesibilidad
- Indexación y posicionamiento en la web 2.0.
- Ejercicio de posicionamiento web.
¿Porqué es tan importante?
En primer lugar, aun hoy en día mucha gente (clientes) piensan que la mánera lógica de acceder a una página web es a través de la home, escogiendo una opción del menú y navegando de una manera ordenada. Pero esto solo es en parte cierto, es una posible manera de navegar pero cada vez la menos común.
Gran parte de los accesos se realizan en páginas finales con contenido, en cualquier lugar, a través de buscadores como google, son éstas páginas las que tenemos que cuidar ya que son las que atraerán mas tráfico y son realmente la puerta de entrada a nuestra web.
El posicionamiento no solo es importante por motivos comerciales, sino que además es la manera que permite que la gente encuentre de manera eficiente la información que estás publicando, y de llegar al público objetivo que quieres conseguir.
Mas del 60% de la gente usan los buscadores como sistema principal para encontrar información en internet.
Existen empresas que se dedican exclusivamente a éste tema, y empieza a ser común en empresas grandes que exista un departamento solo para el aéra de posicionamiento y publicidad en internet.
Actualmente google cuenta con aproximadamente el 90% de cuota de mercado. De hecho varios buscadores como terra, o a9, usan el motor de búsqueda de google y no uno propio.
Aunque existen mecanismos para mejorar la indexación y el posicionamiento de las páginas web, el criterio principal siempre para por el hecho de que las páginas estén bien hechas y el contenido sea concreto, original e interesante.
Un poco de historia
Desde el principio de la popularización de Internet han existido buscadores (sinónimos: arañas, spiders, web crawlers). Al principio muchos de ellos no eran mas que directorios que incluso se actualizaban a mano! (principios de terra o Yahoo por ejemplo).
Lycos 1994
Infoseek 1994
Altavista 1994
Google 1998
En 2001 google ya predomina totalmente el panorama.
Posteriormente se han automatizado y los algoritmos para indexar la información se han ido mejorando.
Incluso existen buscadores de código abierto como Nutch.
El panorama actual no se puede dar como estabilizado ya que empresas importantes como Microsoft (live.com) o Yahoo están realizando esfuerzos para mejorar su buscadores y plantear mas competencia a Google.
Funcionamiento de los buscadores. Google. Yahoo. MSN Search.Spiders.
Google empezó como un proyecto de investigación (doctorado) en 1996 de Larry Page y Sergey Brin, dos estudiantes de la Universidad de Stanford. En 1998 empezó a funcionar como proyecto comercial.
Google actualmente consta de mas de 20.000 servidores repartidos por todo el mundo. Funcionan en linux.
La plantilla actual de Google supera los 5000 trabajadores.
El funcionamiento actual de los buscadores se basa en usar programas que rastrean la información de las páginas y que permiten también que te des de alta manualmente, estos programas rastreadores se llaman spiders (arañas), robots o web crawlers. El hecho de desarollar un rastreador simple por si mismo no es demasiado complejo ya que "solo" se necesita mucho tiempo y mucha capacidad de almacenamiento y un buen algoritmo de "rastreo". Por supuesto además de ello se necesitan algoritmos para decidir que información es mas importante y para filtrar el omnipresente SPAM.
La información en internet tiene una estructura en forma de grafo (nodos interconectados) que es facilmente rastreable. La importancia del buen funcionamiento de un buscador está en el criterio que se usa para decidir si una página es mas importante que otra y hacer una buena selección de resultados a partir de unos criterios de búsqueda. Estos algoritmos de decisión se mantienen en secreto y solo se pueden hacer deducciones al respecto.Además estos algoritmos van variando con el tiempo y son diferentes en cada buscador, y posiblemente incluso diferentes en cada país.
Estadísticas web
Los servidores web normalmente guardan un historial de todos los accesos que se han hecho a los archivos. Es lo que se llama el "web log".En inglés un "log" es un registro de información. Un web log es pues un conjunto de archivos de texto que contienen la información de la fecha, el contenido que se ha accedido, el tipo de navegador que se ha usado para navegar. Cada acceso se denomina un "hit". Éste es el mecanismo mas "primitivo" para analizar la información, y que ha existido siempre.
Sin embargo por si sola no es muy útil es necesario filtrarla adecuadamente. Para ello tenemos normalmente herramientas de estadísticas en los paneles de control de los servidores. Estas herramientas normalmente usan estos weblogs para presentar la información filtrada de una manera que la podamos comprender mas facilmente.
El número de hits en un servidor no tiene especial relevancia, ya que depende mucho de como estan construidas las páginas, sin embargo si que es un hecho mucho mas relevante el número de usuarios "únicos". Es decir considerar el número de visitantes no repetidos. Si una misma persona entra varias veces no se considera una visita diferente. Esto tiene mucha mas importancia también desde el punto de vista de MARKETING, ya que es nuestra AUDIENCIA real.
Debemos cuantificar la popularidad de un sitio pues básicamente por los visitantes únicos, mas que por otros criterios como el tráfico (depende mucho del tipo de medios y además no garantiza que se hayan visto), o por los hits (que tampoco aportan demasiada información interesante).
Entre los datos mas interesantes que podemos conseguir estarian por ejemplo los siguientes:
Muchos de ellos se consiguen a partir de las "cabeceras" (headers) que envian los navegadores cuando estamos usandolos.
-Número de visitantes a la web por un periodo de tiempo (dia, semana, mes, etc)
-Páginas mas visitadas.
-Pais de procedencia de las visitas (para ello necesitamos una base de datos que vincule las IPS con paises, con el weblog po si solo no tenemos suficiente)
-Sitios web desde donde han venido las visitas (del REFERER)
-Navegadores y sistemas operativos usados (del USERAGENT)
-Resolución de pantalla
Para ver la especificación exacta de estas cabeceras visitar: http://www.faqs.org/rfcs/rfc2616
Y partir de esta información las posibilidades son muy grandes, por ejemplo:
-Analizar la ruta seguida por cada persona en el web
-Analizar donde la gente ha dejado de navegar en nuestro web
-Analizar con que palabras han encontrado nuestra web desde google.
-etc-etc-etc
Además de los sistemas que usan los logs del servidor también existen otros sistemas que permiten marcar las páginas que queremos rastrear y luego analizar la información a partir de los datos guardados en una base de datos.
Ejemplos de programas de estadísticas que usan esta técnica:
Tracewatch.
Es un programa open source. Requiere mysql/php en nuestro servidor.
www.tracewatch.com
Tiene la ventaja que podemos verificar en tiempo real la actividad en nuestro web.
Es necesario incluir un pequeño código en php (p javascript) en cada página que queremos rastrear.
Google analytics
Funciona a través de un servidor de google. Seguramente el mas completo y mas orientado a marketing web.
Un pequeño inconveniente es que no se puede obtener la información en tiempo real.
Es necesario incluir un pequeño código en javascript en cada página que queremos rastrear.
Panel de control
En la mayoria de paneles de control de los servidores se tiene acceso a programas de estadísticas bastante detallados que usan los archivos de los web-logs del servidor.
Indexación y posicionamiento
En primer lugar es importante diferenciar entre los conceptos de indexación y posicionamiento.
La indexación consiste en que el contenido de nuestras páginas pueda ser rastreado convenientemente por los spiders.
Es decir, que haciendo una busqueda en ese contenido aparezca el resultado aunque sea en la página 20.000 de resultados.
Que todo el contenido que estamos generando esté ordenado y etiquetado de la manera adecuada.
El posicionamiento, en cambio, consiste en mover una búsqueda con unas palabras clave determinadas en las primeras posiciones de resultados.
Siempre hago referencia al posicionamiento orgánico o natural en contra del posicionamiento patrocinado que consiste en pagar para obtener un enlace en los resultados que aparece en las primeras posiciones, pero diferenciado del resto.
Algunos estudios, como este artículo del CEO de idealista.com, sugieren que es mejor inversión conseguir el posicionamiento orgánico que el patrocinado.
Para conseguir un buen posicionamiento la indexación es un requisito previo.
Para indexar la información solo necesitamos un enlace entrante desde cualquier otra web. Esto permitirá que el spider del buscador entre en la web y navegando por los enlaces rastree toda la información (siempre que realmente la información esté interconectada.
El posicionamiento sin embargo requiere un trabajo "manual", que básicamente consiste en el intercambio de enlaces, en general se trata de conseguir el máximo número de enlaces entrantes. Esto no es algo que se pueda hacer automáticamente (en cambio la indexación si)
A continuación detallamos algunos procedimientos que permiten optimizar la indexación de nuestras páginas web.
Para ello vamos a imaginarnos una página de una zapateria, la zapateria Pérez.
* El título de la página tiene que ser autoexplicativo, único y explicar el contenido de la página.
Es decir, en lugar de poner el mismo nombre a todas las páginas, si una página habla de un producto concreto, el nombre del producto es el que debe aparecer en el título.
Por ejemplo: zapatos rojos en lugar de Zapateria Pérez siempre.
* Si queremos poner siempre el nombre de nuestro sitio web, ponerlo después del título, no antes.
Por ejemplo es mucho mejor un título del tipo:
Sandalias rojas - Zapatos Perez
que
Zapatos Perez- Sandalias rojas
* Es importante también que cada item de contenido tenga una página independiente con su título y contenido propio, es lo que se denomina permalink. Es la vía de entrada a través de los buscadores. Así si la web está bien posicionada buscando sandalias rojas entraremos en la página del producto "sandalias rojas" y no en otro apartado de la web.
* Garantizar que hay links a todas las secciones y apartados de la web. Esto no solo es bueno para la indexación sino también para nuestros usuari@s ya que les garantiza que pueden acceder a toda la información.
* Código standard. Hay que intentar implementar siempre código standard. Que valide correctamente tanto el HTML como los CSS.
Validador de w3.org:
http://validator.w3.org
* Poner etiquetas alternativas para las imágenes (ALT) y que sean descriptivas de los contenidos. Además esto hace que el código HTML sea "válido". También facilitará que las imágenes salgan en los buscadores de imágenes.
- No poner links usando javascript: como por ejemplo:
esto es un link
Ya que de está manera los "robots" no pueden seguir rastreando la información.Este link será invisible para ellos.
* No usar frames ni iframes. Por razones obvias esto imposibilita la indexación ya que siempre tenemos una única URL.
* Nombres de URL autoexplicativos. Un hecho bastante relevante es el nombre de la URL. Si éste no es autoexplicativo se bajan puntos respecto a la indexación, en cambio si la url tiene sentido por si misma (con el nombre podemos adivinar cual será el contenido) será mucho mejor tratada por los buscadores.Usar "-" en lugar de "_" o espacios.
Imaginemos esta URL por ejemplo:
http://www.miweb.com/producto?ref=102-4765689-7742544?%5Fencoding=UTF8
a simple vista no indica nada sobre el contenido!
En cambio si fuera por ejemplo:
http://www.miweb.com/productos/manual-cocina-hindu.htm
con el título ya sabemos lo que vamos a encontrar pero mas importante, estará mejor indexado!.
Una manera de conseguir esto cuando usamos páginas dinámicas, es mediante el MOD REWRITE de Apache
(por supuesto solo se puede hacer si usamos apache como servidor web)
Información sobre el mod_rewrite: http://httpd.apache.org/docs/2.0/mod/mod_rewrite.html
Esta técnica consiste en definir una serie de reglas que transforman automáticamente una URL críptica en una URL con sentido.
Para ello debemos escribir las reglas según una sintaxis determinada en un archivo llamado .htacces del servidor web.
* Usar los metatags keywords y description (aunque no lo usa Google, si otros buscadores)
* Incluir un mapa del web con todos los links importantes. (facilita la indexación)
* Densidad de palabras clave.
Poner las palabras importantes (palabras clave) en marcadores (x=1,2,etc) o , , , etc...
Si repites demasiado una palabra se puede considerar spam.
Como posicionar bien un sitio
En el apartado anterior hemos visto técnicas para indexar las páginas, esto en cierta manera, garantiza que al buscar una página en un buscador ésta página saldrá como resultado, pero en que posición?. Naturalmente interesa además que salga en una de las posiciones iniciales. Para conseguir esto debemos usar técnicas de posicionamiento.
En google las páginas del resultado se ordenan básicamente por su "Page-rank".
Ver explicación a fondo del pagerank en:
http://www2.imm.dtu.dk/~pch/Projekter/Google.pdf
Básicamente la idea del "page-rank" es usar los links a una página como votos a la misma.
Es recursivo, cuanto mayor sea el pagerank de una página donde está el link, es un voto con mas valor.
Un link en una página A a otra página B es interpretado como un voto a la página B.
Si el pagerank de la página A es mas alto el voto también (recursividad)
En google el pagerank se mide entre 0 y 10.
Por tanto para conseguir un buen posicionamiento lo que necesitamos es conseguir enlaces entrantes en páginas con cuanto mas elevado page-rank mejor! (a cambio de enlaces salientes?)
Pero en realidad no solo es eso. Tenemos que filtrar muy bien el uso de las palabras que tenemos en nuestro contenido.
Probablemente no podremos competir en búsquedas por palabras muy comunes, pero si por otras palabras o combinaciones, aquí es donde debemos hacer un esfuerzo.
Sobretodo lo que tenemos que hacer es crear buenos contenidos, y usar las palabras adecuadas con mesura.
Hay que analizar si lo que la gente busca cuando llega a nuestra web se corresponde con la información que se está mostrando.
Es muy complejo fidelizar la gente que llega mediante los buscadores. Llega , encuentra lo que busca y se va.
Sobretodo es importante escribir contenidos de calidad, para ello se necesita tiempo y recursos.
Mas información en la wikipedia, posicionamiento en buscadores
y en las recomendaciones de Google
Algunas herramientas y links interesantes
Existen infinidad de herramientas para trabajar en el tema de posicionamiento.
Las mas fácil de todas ellas es el mismo buscador google.
Existen unos comandos especiales que nos permiten tener información de como se está indexando la información:
| site: | Páginas indexadas de su sitio | site:www.zapateriaperez.com |
| link: | Páginas que enlazan a la página de presentación de su sitio web | link:www.zapateriaperez.com |
| cache: | Caché actual de su sitio | cache:www.zapateriaperez.com |
| info: | Información de que disponemos sobre su sitio | info:www.zapateriaperez.com |
| related: | Páginas similares a su sitio | related:www.zapateriaperez.com |
* Las herramientas para webmasters de google.
* sitemaps
Un sitemap es un mapa de nuestro sitio con un formato determinado (xml) que permite a google indexar mejor la información.
http://www.google.com/webmasters/sitemaps/diagnostic?siteUrl=http%3A%2F%2Fwww.pimpampum.net%2Fblog%2F&hl=es
* Alexa sirve para medir tendencias y seguir la competencia. Muy útil para obtener comparativas entre diferentes dominios.
Solo fiable para dominios con un cierto tráfico.
Lista de sitios mas visitados en España según Alexa
* Protocolo para conseguir un buen posicionamiento (Ojo buscador)
http://www.manualdeposicionamiento.com/
Una estrategia importante para conseguir un buen posicionamiento es , una vez decididas las palabras que consideramos clave para nuestro sitio, usar estas palabras con una densidad apropiada.
Hay que ir con cuidado ya que si abusamos se interpreta como spam y no sirve para nada.
Sugeridor de palabras clave
http://inventory.overture.com/d/searchinventory/suggestion/
Publicidad
Un tema totalmente relacionado con el posicionamiento es la publicidad web.
Hoy en dia la publicidad funciona en gran proporción usando técnicas como el "adsense" de google.
El funcionamiento de adsense es el siguiente; el webmaster integra un código especial en javascript dentro de la página
(después de darse de alta y conseguir uan cuenta naturalmente). Entonces el motor de google rastrea la información que contiene esa página y genera anuncios que encajan con las palabras que se muestran en el contenido.
Desde el punto de vista del anunciante se pagan solo los anuncios cuando alguien "clica" en ellos. El precio del click puede variar según la palabra. El webmaster recibe a cambio una cantidad de dinero que se abona cada mes.
Estos anuncios se pueden personalizar bastante.
Indexación de páginas en Flash
La verdad es que, aunque google es capaz de indexar los contenidos en flash, esto a la práctica no funciona por los siguientes motivos:
* La extracción del texto del interior de flash puede ser bastanta arbitraria y no categorizada
* Simplemente no es posible si la información de flash es dinámica y por tanto no reside fisicamente en el archivo .swf
Así que solo existe dos soluciones para indexar los contenidos en una página en flash:
- Ofrecer los mismos contenidos en paralelo en una versión html
-o alternativamente mezclar html y flash en la misma página, usando flash solo para las partes realmente imprescindibles, por ejemplo en el caso que queramos visualizar información de una manera determinada o queramos mostrar archivos de video.
En cualquier caso siempre es útil usar el script "swfobject" que permite :
- Validar el código html (el código html que exportra flash no es válido al 100%)
- Ofrecer contenido alternativo para los buscadores (los buscadores no tienen plugin de flash)
http://blog.deconcept.com/swfobject/
Accesibilidad
Un aspecto relacionado con la indexación de las páginas web es la accesibilidad. Cada vez tiene mas importancia.
En algunos servicios oficiales es obligatorio que los contenidos sean accesibles.
En resumen se trata de proporcionar mecanismos para que los contenidos sean visibles para gent con discapacidades sensoriales,
por ejemplo facilitando el acceso a los apartados usando teclas, pudiendo elegir un tamaño de texto mas grande, permitiendo el uso de visores especiales adaptados, etc.
Manual de accesibilidad: de la w3c:
http://www.w3.org/TR/1999/WAI-WEBCONTENT-19990505/
Indexación y posicionamiento en la web 2.0.
El funcionamiento de los buscadores como technorati (www.technorati.com) es totalmente diferente a google.
Para empezar solo busca en un tipo determinado de páginas, las de los blogs, y usando el RSS. Además no existe un robot sino que son los propios blogs que avisan con un "ping" que existe información actualizada, es solo en este momento que un programa en este servidor decide indexar o no ese contenido.
Se prioriza totalmente el contenido mas reciente y se categoriza muy bien (usando los tags o categorias con las cuales la gente publica los contenidos)
Para estar bien indexado y posicionado en este tipo de servicios es fundamental poner información buena en contenidos concretos y actualizada a menudo.
Ejercicio de posicionamiento web.
Conseguir posicionar el máximo de bien una página con estas palabras:
"trucha patagónica".
Para ello crear una página en el servidor "final" o en algún servidor del alumno/a siguiendo los criterios marcados en estos apuntes sobre indexación.
Evaluar los resultados la semana que viene.
REFERENCIAS
wikipedia
http://en.wikipedia.org/wiki/Web_crawler
http://en.wikipedia.org/wiki/Google
http://google.dirson.com/dancem.php
Otras herramientas y recursos
http://www-128.ibm.com/developerworks/web/library/wa-seo3.html#resources
Sístemas de búsqueda en la Web
Fidel Cacheda
http://www.tic.udc.es/~fidel/docs/teaching/doctorado/IR%204%20-%20Sistemas%20de%20Busqueda%20en%20la%20Web.pdf
Computing the google pagerank
DTU
http://www2.imm.dtu.dk/~pch/Projekter/Google.pdf
Hacking con google
Dr. Gonzalo Álvarez Marañón
http://www.iec.csic.es/gonzalo/descargas/HackingconGoogle.pdf
Ojo buscador
http://www.ojobuscador.com/
Daniel Julià, 2006-2007.

