martes, 16 de agosto de 2016

Web Superficial Vs Web Profunda....Nadamos o Buceamos??

Hey amig@s,

Como ya hemos visto a lo largo de este curso, la búsqueda de información veraz requiere (haciendo un símil de pesca) de ciertos aparejos y la habilidad necesaria para faenar con ellos.

Los buscadores tradicionales solo arañan la superficie de la web, tras esta pequeña/gran capa se esconden extensos contenidos que van desde información verdaderamente alucinante, hasta las más depravadas e ilegales perversiones, pasando por sites gubernamentales y un largo etcétera de datos.

De la Web Superficial y sobre todo de la Web Profunda (que tiene más chicha), hablaremos hoy.


La Web Superficial es la porción de Internet que es indexada por los spiders de los motores de búsqueda.



Las arañas de los buscadores recorren las páginas web, almacenan información que contienen y buscan enlaces a otros sitios web para seguir actualizando sus bases de datos.

Con el tiempo acaban recorriendo todas las páginas de Internet que tienen enlaces desde otros URLs. 


Las principales características  de los sitios de la Web Superficial son: 


  • Son de acceso libre 
  • La información que contienen no forma parte de bases de datos 
  • Normalmente para acceder a la información no se necesita registro 
  • La mayoría  de esta información está formada por páginas Web Estáticas, o sea páginas o archivos con  URL fija y/o  accesibles desde otro enlace. 



Hay otras páginas que por distintos motivos (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) no pueden ser alcanzadas por los spiders de los buscadores.

Estas páginas forman la Web Profunda.

Esta web también llamada Invisible, según Lluis Codina debería llamarse "no indizable" por la incapacidad de los motores de búsqueda de indizar estas páginas y sitios web.


Sherman y Price en su artículo 'The Invisible Web: Uncovering Sources Search Engines Can’t See', (La Web Invisible: Descubriendo Fuentes que los Motores de Búsqueda no Pueden Ver), A Cyberage Book, Julio 2001, identificaron cuatro tipos de contenidos invisibles en la web:
  1. La Web Opaca (The Opaque Web).
  2. La Web Privada (The Private Web).
  3. La Web Propietaria (The Proprietary Web).
  4. La Web Realmente Invisible (The Truly Invisible Web). 

La Web Opaca está compuesta por archivos que bien podrían estar incluidos en los índices de los buscadores, pero no lo están por alguno de los siguientes motivos: 
  
  • Extensión de la indización: De vez en cuando, digamos por economizar, no todas las páginas de un sitio web son indizadas en los buscadores. 
  • Actualización de la indización: los buscadores no pueden seguir el ritmo al indizar todas las páginas existentes. Se agregan o modifican más deprisa de lo que pueden actualizar la información.
  • Se alcanza el máximo de resultados visibles: aunque los motores de búsqueda muestran a veces muchos resultados, normalmente limitan el número de resultados que se muestran de entre 200 a 1000. 
  • URL desconectadas: los buscadores  más recientes , muestran los documentos ordenados por relevancia según el número de veces que aparecen referenciados en otros. 
Si un documento o página no tiene un link que los dirija  desde otro documento, la página sea encontrada, ya que no se encuentra indizada. 

La Web Privada son  páginas Web que bien podrían estar indizadas en los 
buscadores pero son excluidas adrede por alguno de estos motivos: 
  • Las páginas están protegidas por contraseñas. 
  • Contienen un robot “robots.txt” para evitar ser indizadas. 
  • Contienen un campo en blanco “noindex” para evitar que el buscador consiga indizar la parte  que corresponde al cuerpo de la página. 
Normalmente esta Web está formada por documentos excluidos deliberadamente por los dueños de la información por diferentes razones y será muy difícil encontrar un modo legal de sortear esta barrera.

La Web Propietaria la componen aquellas páginas en las que es necesario registrarse para acceder al contenido bien sea de forma gratuita o pre-pago.

La Web Realmente Invisible la componen páginas que no pueden ser indizadas porque los buscadores tienen limitaciones técnicas, programas ejecutables, archivos comprimidos y/o páginas generadas a partir de datos que introduce el usuario, además de información almacenada en bases de datos que no puede ser recuperada a menos que se realice una petición específica. 





Quiero también mencionar a otra parte de Internet denominada Web Oscura (Dark Web).

Ésta es una parte de la Web Profunda formada por hosts inaccesibles, a los que no se puede acceder a través de medios convencionales y que generalmente se utiliza en entornos en los que es esencial proteger la identidad de los usuarios y el contenido de las comunicaciones.



La Web Oscura se caracteriza por el tipo de contenidos que la integran, normalmente relacionados con:

  • Actividades delictivas, terroristas, pederastas o violación de derechos de autor.
  • Información secreta relativa a actividades gubernamentales, militares o de espionaje.
  • Comunicación de información confidencial de índole comercial.
  • Lugares donde, debido a conflictos políticos, existen restricciones o censura en la difusión y acceso a ciertos tipos de contenido.



La Web Oscura se desarrolla a través de redes superpuestas sobre Internet, cuyos principales objetivos son preservar el anonimato del usuario, mantener la integridad del mensaje y garantizar el secreto de la información.






Dentro de la Web Profunda contamos con algunos recursos de búsqueda que son muy interesantes por ser fuentes de gran valor informativo.
Normalmente son páginas desarrolladas en inglés, pero pueden realizarse búsquedas en español.

Algunos de estos recursos son:

The WWW Virtual Library (http://vlib.org) se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web.

Academia.edu (https://www.academia.edu) es una red social 2.0 para investigadores, cuenta con un directorio de más de 12.000 publicaciones.
Se calcula que tiene 830.000 visitantes mensuales y cuenta con más de 
191.000 académicos de todo el mundo.

Reefseek.com (http://www.refseek.com/) es un motor de búsqueda en Internet para estudiantes e investigadores, su objetivo es hacer que la información académica sea de fácil acceso para todos.
Realiza búsquedas en más de un billón de documentos que incluyen páginas web, libros, enciclopedias, revistas y periódicos, vetando en la medida de lo posible cualquier resultado no relativo a ciencia e investigación.

Jurn (http://www.jurn.org)  otro motor de búsqueda que da la opción de buscar entre millones de artículos académicos libres, capítulos y/o tesis de múltiples disciplinas ( Humanidades, Negocios, Economía, Arte, Ecología, Ciencia, Historia, etc).

Microsoft Academic Search (http://academic.research.microsoft.com/) es el buscador académico de Microsoft.

TechXtra (http://techxtra.tradepub.com/) enfoca su información, en ingeniería, matemáticas e informática, siendo posible navegar a través de una larga lista de revistas especializadas de ingeniería gratuitas, documentos técnicos, descargas y podcasts.

Ciencia (http://ciencia.science.gov/) es la hermana gemela española del portal Science.gov (http://www.science.gov/) que se centra en proporcionar información científica e investigación del gobierno de los Estados Unidos de América. 
Puede indexar más de 60 bases de datos y 200 millones de páginas con información científica. También ofrece la posibilidad de búsqueda avanzada y de imágenes. 


Espero que esta información sea de vuestro agrado, además de permitirnos recuperar información netamente útil.

See you soon mates!!

1 comentario:

  1. Estimado César,
    Considero que tu trabajo es excelente con contenido acorde a lo solicitado y una muy buena presentación visual.
    ¡Felicitaciones! y ¡Adelante!
    Saludos desde la bella Mendoza, Argentina.

    ResponderEliminar