lunes, 26 de octubre de 2015

El que busca bien encuentra

Un amigo mío es programador de aplicaciones para teléfonos móviles, y no tenía suerte buscando un artículo que recordaba haber leído pero no sabía como había llegado hasta él, y muy confiado, no anotó ninguna referencia sobre dicho artículo. Ni URL, ni publicación, ni nada. Depositó toda su confianza en el gran buscador, ¡ah! Sorpresa, ahora ni rastro del artículo.

La pregunta que estaba haciendo directamente al buscador Google era la siguiente:
¿Aplicación móvil para criptografía de clave privada?
Los resultados que se obtienes son algo así... y una página tras otra, y el dicho artículo sin aparecer.


Utilizando Google Académico


Para filtrar la información genérica, e ir directamente a la obtención de resultados académicos o de divulgación científica lo mejor es acudir directamente a Google Académico. Pero no basta con eso, porque tras indagar por unas cuantas páginas de resultados, el documento sigue sin aparecer.



Lo siguiente es plantear la pregunta de un modo más adecuado, para lo cual la replantemos en base a una clasificación de palabras clave, y hacemos uso de la búsqueda avanzada de Google Académico para introducir estos parámetros en la búsqueda.

  • Campo temático: criptografía clave privada
  • Problema específico: aplicación móvil
  • Referencias autoriales: no tenemos ninguna referencia de ayuda ya que no recuerda este dato

Mi amigo me recuerda que la técnica criptográfica que desea debe ser compleja, y no debe ser básica, como por ejemplo DES. Por tanto, añadimos en la búsqueda el operador NOT con esta palabra clave.



A continuación, me indica que es un artículo reciente, pero ya le he dado a buscar, y sin necesidad de utilizar el filtro de publicación ya ha aparecido el resultado que buscaba en la lista que el buscador nos devuelve.


lunes, 19 de octubre de 2015

Lo importante está en el interior

Anteriormente he comentado como nos enfrentamos a un exceso de información en nuestro proceso de búsqueda de la misma. Para acceder a dicha información hacemos uso habitual de los denominados de forma general como buscadores, aunque también podemos utilizar metabuscadores, directorios, etc. No obstante, si queremos ser más certeros en nuestra búsqueda, podemos acotar los resultados y filtrarlos con el uso de operadores y herramientas avanzadas. Pues bien, puede ser que lo que estemos buscando no esté a simple vista, y ¿a qué me refiero con esto? De eso va esta entrada, ¿está toda la información disponible en internet localizable a través de un buscador?

Iceberg como símil de información en Internet
Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible. Lo que resta, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

Para ilustrar esta diferencia entre la web superficial y la web profunda se suele recurrir de forma bastante recurrente a un iceberg, del cual a simple vista solo podemos observar su superficie, sin que podamos ver de manera directa el iceberg desde la profundidad del océano, al igual que ocurre con la información disponible en internet, y que no se puede buscar de manera directa, ya que por diversos motivos, ésta puede estar oculta o no disponible para nosotros, pero no quiere decir que no exista.


La Web superficial


La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta en sus formularios de búsqueda. Las características principales de los sitios de la Web visible son:
  • Su información no está contenida en bases de datos.
  • Es de libre acceso.
  • No se requiere la realización de un proceso de registro para acceder a la información.
  • Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Nótese la importancia de lo definido, ya que en ello radica la principal diferencia entre ambos tipos de web o de información contenida en ella: "lo que no es o no puede ser indexado no es accesible a través de un buscador al uso". Es decir, si no es indexado no quiere decir que no exista, sino que la herramienta que estamos utilizando es incapaz de alcanzar esa información.

La Web profunda


Web invisible es el término utilizado para describir toda la información disponible en Internet que no se recupera interrogando a los buscadores convencionales. Es decir, toda información que no pueda ser indexada por los buscadores convencionales queda englobada en esta categoría. Tal y como dice Lluis Codina:

“Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado”.

Los motivos por lo cuales la información se considera de la web profunda pueden ser variados, pero generalmente es información almacenada y accesible mediante bases de datos. Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP, etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta, por lo que el buscador no puede almacenar una dirección que mostrar en base a unas palabras clave que hagan de índice y que pueda devolver al realizar la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la web opaca, la web privada, la web propietaria y la realmente invisible. Puedes consultar más acerca de esto en el extracto de su documento The Invisible Web: Uncovering Sources Search Engines Can’t See en la web de recursos digitalizados de Illinois para la educación: IDEALS.

La web opaca


Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:


  • Extensión de la indexación: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
  • Frecuencia de la indexación: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
  • URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.


La web privada


Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:


  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.


La web propietaria


Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito.

La web realmente invisible


Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:


  • Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Recursos de búsqueda en la Web Profunda


  • The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.
  • Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y biografías. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
  • DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.
  • TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas y podcasts.

domingo, 11 de octubre de 2015

Buscando con un microscopio

Porque como ya comenté anteriormente, en nuestras búsquedas en Internet corremos el riesgo de sufrir la llamada Infoxicación. Unas de las posibles soluciones a este problema es la aplicación de filtros lo cual los buscadores nos permiten a través de distintas opciones, llevar a cabo búsquedas avanzadas que comentaré a continuación.

Operadores lógicos

George Boole

También denominados operadores booleanos, en referencia al matemático y filósofo inglés George Boole, quien en el siglo XIX ideó un sistema para análisis de variables. Se usan en buscadores para restringir una búsqueda y eliminar resultados no deseados. Con ellos se obtienen resultados a partir de que se cumplan o no unas ciertas condiciones, ya que se pueden combinar para acotar aún más las búsquedas.

Google dispone de varios operadores lógicos para facilitar la búsqueda, además de otros recursos menos utilizados. Pero, antes de explorar los secretos de Google, conozcamos algunos procedimientos elementales para efectuar consultas gracias a estos operadores lógicos.

El operador AND, Y o + al colocarlo delante de las palabras clave nos indican que los resultados que se desean deben incluir todos los términos que aparecen sin importar el orden.



El operador OR u O permite obtener resultados con algunos de los términos indicados, pero de forma excluyente. El espacio en blanco en cambio, funciona como un “o” incluyente.



El operador NOT o - delante de las palabras las excluye de la búsqueda.



Pero no solo podemos hacer esto, sino que también los operadores pueden combinarse entre sí para facilitar/concretar una búsqueda.


Además, pueden utilizarse caracteres especiales para realizar algunas búsquedas especiales:
  • Asterisco * - Sustituye una cadena de caracteres
  • Interrogación ? - Sustituye un sólo carácter en una ubicación específica
  • Comillas " " - Busca unas palabras exactas o expresión
  • Arroba @ - Permite buscar etiquetas sociales
  • Almohadilla # - Busca temas de tendencias
O también se pueden utilizar algunos operadores especiales:
  • define: Permite obtener una definición
  • site: Devuelve resultados dentro de un sitio o dominio
  • link: Indica páginas que apunten a un determinado sitio
  • related: Encuentra sitios similares a un URL específica
  • allintitle:Realiza búsquedas por título
  • info: Muestra información acerca de un sitio web

Búsqueda Avanzada


La búsqueda avanzada es un tipo de búsqueda que posee características adicionales soportadas por un motor de búsqueda o buscador. Suele ser una opción de elección libre en los buscadores, programas, herramientas y servicios online. Una búsqueda simple generalmente consta de un cuadro de texto en el que se ingresa una cadena de caracteres, en cambio, las búsquedas avanzadas suelen contar con múltiples cuadros de texto, casillas de verificación y otros elementos incluidos habitualmente en los formularios. Por lo general, estos elementos permiten aplicar filtros a la búsqueda básica, para obtener resultados más exactos. 

Además de la introducción de términos en el campo de búsqueda, Google ofrece otras opciones, que nos permiten encontrar páginas que contengan: 
  • Todas las palabras que se mencionan
  • Una frase exacta
  • Cualquiera de una serie de palabras
  • Ninguna de las palabras mencionadas
  • Valores comprendidos en un intervalo
Además, podemos restringir los resultados por: idioma, región, fecha de la actualización del artículo, podemos ingresar la URL de un sitio específico, dónde deben aparecer los términos que ingresamos (en el título, descripción o en cualquier parte de la página), los resultados más relevantes, el tipo de archivo (esto es muy útil ya que por ejemplo podemos seleccionar, documentos de texto, PDF, presentaciones multimedia, planillas de cálculo, entre otros) y finalmente por los derechos de uso del material. 

La búsqueda de imágenes de Google permite además de agregar términos en el cuadro de búsqueda, buscar por imagen es decir ingresar la URL de una imagen o subir un archivo de imagen desde nuestra computadora, eso nos permitirá encontrar la imagen u otras similares como puede verse en la imagen.


La Búsqueda avanzada de imágenes de Google, también nos ofrece numerosas opciones para filtrar información y realizar búsquedas con mayor precisión: entre otras posibilidades seleccionar el tamaño, proporción, color, tipo de imagen, tipo de archivo entre otras posibilidades. 


Y eso es todo! Puedes encontrar más información sobre las búsquedas en internet o avanzadas navegando un poco y haciendo uso de estos filtrados para encontrar la información que estabas buscando. ¿Utilizas algun operador en tus búsquedas en internet que no he comentado? Deja tus consejos de búsqueda en los comentarios.

domingo, 4 de octubre de 2015

Buscando un buscador

No querido lector, un buscador no es la única solución cuando estás buscando información. Existen en la web muchas otras herramientas de las que puede hacer uso y que en algunos casos te proporcionarán la información que estabas buscando de forma más rápida, con contenido de mejor calidad, actualizado, y mejor organizado. Por eso, dependiendo de lo que estamos buscando, puede que no debamos acudir directamente a un buscador. Veamos a continuación algunas de estas herramientas entra la que se encuentran por supuesto los buscadores, comentando las partes principales del mismo; los metabuscadores; los directorios; las guías; y el software especializado de búsqueda.


¿Qué hay dentro de un buscador?


Se compone de cuatro componentes básicos que son:
  • Robot
También llamado araña es un programa que se encarga de recorrer la Web obteniendo información relevante, de cada una de las páginas que visita.
  • Motor de indexación
Se encarga de analizar y condensar la información de la página, para su organización y su posterior presentación a los usuarios.
  • Índices
La clasificación de la información se hace con índices, y puede efectuarse por palabras claves, que es la forma más común, o por conceptos, incluyendo las palabras que más se repiten, o priorizan los términos que se encuentran en el título, la URL, las cabeceras, los enlaces, los primeros párrafos y además, las palabras claves incluidas en las etiquetas o tags.
  • Motor de búsqueda
Es el encargado de procesar las consultas recibidas por los usuarios, para lo cual recorre los índices buscando los términos relacionados con la consulta y obteniendo los documentos que ordena y presenta al usuario.

Otras herramientas de búsqueda


Para comentar las otras herramientas de búsqueda, puedes consultar el siguiente muro en el que encontrarás más información al respecto.