El blog de Juan Jesús Sánchez

miércoles, 24 de junio de 2015

Web superficial y web profunda

El concepto de Internet invisible o Internet profunda, conocida en inglés también como Deepweb, Darkweb o Hidden web, hace referencia, básicamente, a una serie de contenidos que no son visibles para los motores de búsqueda tradicional, esto es, que Google no puede encontrar.

Lo interesante de este concepto es que, tal como lo refiere Brian Wai Fung en su investigación para el MIT sobrealgoritmos para web profunda, “de acuerdo con una investigación conducida por la Universidad de Berkeley en California, en 2003 la web (superficial) contenía aproximadamente 167 terabytes de información. En contraste, la Internet profunda se estima que contiene 91.000 terabytes de información, lo que corresponde a 500 veces más el tamaño de la web superficial. Esto significa que el tradicional sistema de búsqueda basado en enlaces no está rastreando el contenido del 99% de la web”.

Michael Bergman, es el más reconocido estudioso de la Web Profunda, quien en su artículo ‘Web Profunda: sacando a la luz un valor escondido’ (2001), acuñó el término haciendo referencia a la expresión ‘Internet invisible’ que había sido usada por Jill Ellsworth ya en 1994, momento en el cual se pronosticaba el boom del .com y el crecimiento exponencial de la web y la consecuencia ampliación del acceso a la información y el conocimiento.

En su momento, entre los hallazgos más sorprendentes en relación con la Internet Invisible se cuentan:

• La información pública sobre la web señala que actualmente (2001) ésta es entre 400 a 550 veces más grande que lo que el mundo conoce como Internet.
• Sesenta de los mayores sitios de web profunda contienen colectivamente alrededor de 750 terabytes de información - suficientes por sí mismos para superar el tamaño de la web superficial en cuarenta veces su tamaño.
• La web profunda es la categoría de mayor crecimiento en información de la nueva Internet.
• La información alojada en sitios de web profunda tienden a ser más selectivos, con contenidos más extensos que los sitios superficiales comunes.
• La relación contenido y calidad de la web profunda es de 1.000 a 2.000 veces mayor que la de la web superficial.
• Los contenidos de la web profunda son altamente relevantes para todas las necesidades de información, mercadeo, y dominio de Internet.
• Más de la mitad del contenido de la web profunda reside en bases de datos sobre temas específicos.
• Un total de noventa y cinco por ciento de la web profunda es de información accesible al público, no sujeta a cuotas o suscripciones.

Lo más interesante es que pasada una década de presentación de este artículo, las cifras siguen en aumento y se puede considerar que todavía, a través de los motores de búsqueda tradicionales, es posible acceder apenas al 5% del conocimiento alojado en la web.

Pero, ¿por qué una web termina alojada en la Internet invisible? Entre las causas que reseña Aprender Internet se encuentran:

• Los desarrolladores de la web decidieron mantenerla oculta de los motores de búsqueda por alguna razón particular (en algunos casos llega a ser incluso ilegal).
• La página es dinámica, esto es, que el acceso a la información administrada por ella se hace únicamente a través de su propio buscador que no puede ser consultado por los motores de búsqueda tradicionales.
• Los contenidos publicados están en un formato no indexable (ilegible) por los motores de búsqueda, como .pdf, .doc, .xls, .ppt, etc.
• La página está protegida con contraseñas o sistemas de Captcha que evitan que los sistemas de rastreo de los buscadores accedan a su contenido.
• Los contenidos son accesibles a través de enlaces creados con JavaScript o similares.

Uno de los datos más curiosos respecto a la Internet invisible es que los contenidos de la Biblioteca del Congreso de los Estados Unidos, la más grande del mundo, así como el Diccionario de la Real Academia de la Lengua Española (RAE), no son indexables, lo que significa que son únicamente accesibles desde los buscadores de cada uno de estos portales, convirtiéndolos así en parte de la Internet profunda, aun cuando el propósito de ambos sitios es promover el acceso a la información que alojan.

En relación con la Sociedad del Conocimiento, lo fundamental de la web invisible es su potencial de abrir las puertas a información de alta calidad y especialidad temática. Así, las bases de datos de las grandes universidades y centros de investigación, que reúnen tesis, artículos analíticos, publicaciones de libre acceso, planos, gráficos y similares, existen y están abiertas para que sean consultadas y aprovechadas de acuerdo a sus términos de uso.

En paralelo, se ha relacionado la web profunda con la piratería y la ilegalidad, especialmente porque en ella se alojan contenidos cuya fuente no es fácilmente rastreable, y solo es accesible a través de sistemas tipoTOR (The Onion Router – El router cebolla, por sus múltiples capas), que ocultan la identidad de los visitantes. Es verdad que el Internet invisible también sirve con propósitos poco asociados a la gestión del conocimiento, pero como todo en la red, queda a discreción de los usuarios saber qué contenidos aprovechar.

Aunque su nombre resulte intimidante para algunos, la verdad es que la Internet invisible ya no está tan oculta como antes y gracias a los metabuscadores (buscadores de buscadores) es posible rastrear fuentes de bases de datos, que permiten acceder a la información alojada en la web profunda, como estos que reseña Luis Castro en ‘¿Qué es Deep web?’:

• Scirus, usado para búsquedas de información científica.
• Infomine, búsquedas de material escolar de todo tipo.
• FreeLunch, búsquedas de datos económicos.
• CompletePlanet, búsquedas de diversos temas.
• Archive, metabuscador para rastrear temas específicos.
• Search Engine Guide, metabuscador que permite encontrar un buscador o base de datos relacionada con el tema de interés.

Presentación sobre la búsqueda avanzada

1:00 No comments

Aquí incluyo mi práctica, una presentación en google docs acerca de las herramientas de búsqueda avanzada, especialmente en el buscador google. Espero que os guste.
https://docs.google.com/presentation/d/1Uqa3AhzEaXIFo6Vmuo3X3z5V6I0lTjfZCcxob_dt08c/edit?usp=sharing

jueves, 11 de junio de 2015

14:42 No comments

Esta es la nueva práctica para el curso que he realizado, un tributo a uno de mis actores favoritos que ha fallecido hoy, el gran Christopher Lee.

http://es.padlet.com/tiastolas/christopherlee

La infoxicación

13:39 No comments

Si buscamos una explicación sencilla sobre qué es la infoxicación deberíamos decir que la infoxicación es la sobrecarga de información o exceso de información provocada por la profusión de contenidos en Internet.

El neologismo fue acuñado por el especialista en información Alfons Cornella para aludir a la sobresaturación de información, como acrónimo de intoxicación por información.

El concepto nace de la mano de los em@ils, pero no me parece del todo correcto cuando hoy en día de donde más información llega es de nuestros Smartphone a los que estamos enganchados las 24h con tanta notificación de RRSS, aplicaciones o de las diferentes cuentas de correo que tenemos. - See more at: http://www.docout.es/2015/04/la-enfermedad-de-la-informacion-infoxicacion-infobesidad-e-infomania/#sthash.hWQv47te.dpuf

Su peor consecuencia es que nos paraliza y nos impide avanzar hacia los objetivos que nos hemos propuesto ya sean individuales o colectivos como organización; por mera saturación informativa.

Existen distintas estrategias que nos ayudan a combatirla, ahorrándonos gran parte del tiempo que invertimos con esta excesiva cantidad de información:
1.- Utilizar un buen filtro anti-spam
2.- Solo enviar información necesaria
3.- Utilizar formatos fáciles de comprender
4.- Utilizar herramientas que nos ayuden a juntar la información importante para un mejor entendimiento.

Enlaces:
-http://papelesdeinteligencia.com/que-es-la-infoxicacion/
-http://es.wikipedia.org/wiki/Sobrecarga_informativa
-http://www.fundeu.es/recomendacion/infoxicacion-neologismo-adecuado-en-espanol-1279/
-http://alfonscornella.com/thought/infoxicacion/
-http://www.docout.es/2015/04/la-enfermedad-de-la-informacion-infoxicacion-infobesidad-e-infomania/
-http://homominimus.com/2013/10/19/tecnicas-para-combatir-la-infobesidad/

Bienvenidos a mi blog

13:20 No comments

Me he decidido a abrir este nuevo blog tras dejar inactivo durante un largo período mi anterior blog y al ser incitado a ello por un curso que estoy haciendo a través de la plataforma Miriada X llamando "Encontrando tesoros en internet". Así que las tareas de este curso servirán para inaugurar este nuevo blog. Os invito a todos a seguirlo, trataré de incluir entradas interesantes.

El blog de Juan Jesús Sánchez

miércoles, 24 de junio de 2015

Web superficial y web profunda

viernes, 19 de junio de 2015

Presentación sobre la búsqueda avanzada

jueves, 11 de junio de 2015

lunes, 8 de junio de 2015

La infoxicación

Bienvenidos a mi blog

Popular Posts

Blogger templates

Blogger news

Blogroll

Datos personales

Archivo del blog