lunes, 29 de febrero de 2016

WEB SUPERFICIAL Y WEB PROFUNDA

   Los buscadores más comunes sólo nos busca una pequeña parte de lo que hay colgado en internet.  A ésto se le ha empezado a llamar WEB SUPERFICIAL o VISIBLE.
  Al resto se le llama WEB PROFUNDA o INVISIBLE.  En estas se encuentra una gran parte de la información ubicadas en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido que requieren un login.  Además de la información que se encuentran en la denominada WEB OSCURA, que es la que tiene contenido privado, confidencial y hasta ilegal.


La deep web, web profunda, undernet, Internet invisible o web oculta

Características de la Web superficial o visible:
   -La información no está en bases de datos.
   -Es de libre acceso.
   -No se ha de estar registrado para acceder a ella.
   -La mayoría son webs estáticas, páginas con URL fijas y accesibles desde otros enlaces.

Características de la Web profunda o invisible:
   Al contrario que la superficial, es información almacenada y accesible mediante bases de datos y que no son accesibles desde los buscadores convencionales.
mZGgyj5

   Sherma y Price edentifican cuatro tipos de contenidos invisibles:

*WEB OPACA: compuesta por archivos que podrían aparecer con los buscadores pero no lo hacen por:
   +Extensión de la indización: no siempre aparecen indizadas en los buscadores todas las páginas por economizar.
   +Frecuencia de la indización: a diario se agregan y modifican muchas páginas y la indización no se realiza al ritmo que permite incluirlas a todas.
   +Número máximo de resultados visibles: los buscadores normalmente arrojan un gran número de resultados pero generalmente limitan el número de documentos que se muestran (entre 200 y 1000).
   +URL desconectadas: Los buscadores recientes se basan al hacer sus búsquedas en el número de veces que estén indexadas o referenciadas en otras páginas con lo cual cómo no estén los links mencionados en otras páginas dificilmente aparecerán en las búsquedas habituales.

*WEB PRIVADA: podrían esta indizadas en los buscadores habituales pero son excluidas a propósito por:

   +Las páginas están protegidas por contraseñas.
   +Contienen un archivo "robots.txt" para evitar ser indizadas.
   +Continene un campo "noindex" para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
   Normalmente son excluidos porque sus dueños las excluyen deliberadamente por su falta de utilidad.

*WEB PROPIETARIA: incluye páginas en las que es necesario registrarse para poder acceder, ya sea gratis o de pago. Al parecer, al menos el 95% de la Web profunda contiene información gratuita y de acceso público.


*WEB REALMENTE INVISIBLE: son páginas que no son indizadas por limitaciones técnicas de los buscadores.

   +Programas ejecutables y archivos comprimidos.
   +Páginas generadas dinámicamente que se generan a partir de datos que introduce el usuario.
   +Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.

Algunos ejemplos de recursos de búsqueda en la Web Profunda pueden ser:


+ The WWW Virtual Library http://vlib.org/. Considerado el más antiguo.

+ Academia.edu http://www.academia.edu. Red social para investigadores, cuenta con más de 12.000 publicaciones científicas de todo el mundo.
+ Reefseek.com (http//www.refseek.com/). Motor de búsqueda en internet para estudiantes e investigadores.
+Jurn http://wwwjurn.org. Motor de búsqueda de artículos libres académicos, capítulos y tesis de múltiples disciplinas (arte, historia...)
+Microsoft Academic Search http://academic.research.microsoft.com/ buscador académico.
+TechXtra http://techxtra.tradepub.com/. centra su información en ingeniería, matemáticas e informática.
+Ciencia http://ciencia.science.gov/. Es un portal de búsqueda de información científica e investigación del gobierno de los Estados Unidos de América. Puede indexar más de 60 bases de datos y 200 millones de páginas con información científica.

Según Lluis Codina el término más correcto para la web invisible sería "no indizable".


Estos serían otros recursos de interés:

CIENTÍFICOS:
  • La web del conocimiento: es una de las mayores bases de datos de citas del mundo con mas de 54 millones de registros
  • Elseiver: es un repositorio con mas de 2000 revistas de medicina y salud
  • Science Direct: más de 2.500 revistas científicas y más de 11.000 libros
  • Pubmed: es el motor de búsqueda de medline. Contiene mas de 22 millones de documentos de investigación en biomedicina
  • Ingenta: contiene revistas de mas de 12.000 publicaciones
  • Us PTO: es un buscador de patentes y marcas de Estados Unidos de America
  • Espacenet: es un buscador de patentes de los paises Europeos
  • Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de paises de Latinoamerica, España y Portugal
ESTADÍSTICOS:
  • Eurostat: fuente estadistica de todos los países europeos
  • Usa.gov: fuente estadística de EEUU
DATOS FINANCIEROS:
COMERCIO INTERNACIONAL:
  • Comtrade: base de datos de la ONU sobre datos de import-export y códigos HS
  • Cameradata: base de datos española sobre los daos de importación y exportación
  • Market access database: datos sobre tarifas arancelarias en los distintos países de destino a las exportaciones
  • Organización mundial de comercio: recoge informaciones legales sobre el comercio internacional.
LEGISLACIÓN:
  • Eurolex: incluye toda la información legal y disposiciones sobre la legislación y tratados europeos
  • FDA: es la agencia de alimentación de EEUU aqui puedes encontrar todas las regulaciones acerca de pesticidas, conservantes y aditivos autorizados.
OTRAS HERRAMIENTAS DE BÚSQUEDA:
  • Complete planet: Una herramienta que lleva ya muchos años considerándose una de las puertas de acceso principal a la Internet profunda. Este es un directorio con mas de 70.000 bases de datos y recursos
  • Infomine: un recurso de la universidad de california que cuenta con mas de 100.000 enlaces a otras bases de datos
  • Scirus: es un metabuscador científico especializado en institutos y universidades de investigación
Estos ejemplos han sido cogidos de http://papelesdeinteligencia.com/internet-profunda/ dónde hay más información de interes.

Sigamos aprendiendo y enseñando.   

Saluditos



3 comentarios:

  1. Hola, Rosa. Me ha gustado especialmente lo que has incorporado sobre portales de recursos, que añaden gran interés a tu post. Enhorabuena y gracias por compartir esa información.
    Un saludo. Joaquín

    ResponderEliminar
  2. Muy interesante, muchos recursos que no conozco, especialmente los de comercio y los de información financiera. Más cosas para descubrir

    ResponderEliminar
  3. Me faltan vidas...te iré preguntando. Gracias

    ResponderEliminar