Deep web reloaded: esplorare il pagliaio

6 marzo 2009

Il 2 marzo, durante il nostro corso, ragionando sull’information overload, facevo cenno al “Deep web” come uno degli indicatori, ma anche delle metafore, che alludono -già da diversi anni- alla complessità del pluriverso documentale presente in Rete. Con l’espressione “Deep web” si indica infatti tutta quella parte di web che, per ragioni diverse, non viene indicizzata dai motori di ricerca, e che rappresenta il 90% dell’informazione presente su web. Come segnalato da AIDA Lampi , che cita “The Deep Web: Surfacing Hidden Value” il paper “classico” di Bergman del 2001 (a cui aggiungerei un tutorial semplice di Laura Cohen, della biblioteca dell’Università di Albany), il tema del Deep web continua ad interessare alcune start-up (cosmix) o ad animare progetti (Deepep) orientati sulla creazione di “nuovi” search engines. In un articolo di Alex Wright , pubblicato sul sito web del New York Times il 23 febbraio, viene sottolineato come il problema non è più “trovare un ago in un pagliaio” ma “esplorare il pagliaio” cioè indicizzare non solo il web, ma i database che popolano il web, affrontando il problema della interoperabilità delle migliaia di sorgenti di dati presenti in Internet. Riccardo Bagnato su Repubblica online (25 febbraio) riprende questo tema, e il 5 marzo su Nòva il Sole 24 ore n. 163 troviamo un contributo di Luca Tremolada (pag. 11 “Sotto la Rete niente: Deep web, l’internet che sfugge a Google”) che riassume un po’ tutta la questione: il trilione di pagine web censite da Google sono ben poca cosa rispetto alla quantita’ di materiali non intercettati dai motori di ricerca o perche’ non-interoperabili (è il problema dei database) o perche’ non citati da nessuno, e quindi collocati in un cono d’ombra dall’algoritmo PageRank, che come sappiamo opera in Google misurando l’importanza e la trovabilità di un sito soprattuto in base alla sua popolarità.  L’articolo di Nòva sposta il focus del problema “deep web” su un livello promettente, che è il web semantico, cioè precisamente sui modelli di organizzazione (e quindi di trovabilità) della conoscenza su web.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: