![]() |
AIDAinformazioni |
ISSN 1121-0095, trimestrale
anno 20, numero 2, aprile-giugno 2003 |
Il corposo volume degli Atti, curato dal chair José Antonio Frías insieme a Críspulo Travieso e già pubblicato contestualmente al Congresso per le Ediciones Universidad Salamanca, è anch'esso bilingue, con riassunti sia in spagnolo che in inglese. Anche i partecipanti, seppur con una naturale prevalenza di spagnoli, sono affluiti da molti Paesi: in particolare dall'America Latina, oltre che da Stati Uniti, Canada, Unione Europea, Ungheria, Romania, Sudafrica... Particolarmente rilevanti sono stati i contributi degli esperti invitati a tenere le sei comunicazioni lunghe, della durata di un'ora e mezza ciascuna, che hanno offerto un quadro efficace di diversi aspetti della materia: su di esse concentreremo l'attenzione nel presente resoconto.
Jennifer Rowley (Edge Hill College of Higher Education - School of Management and Social Sciences, Ormskirk) ha tracciato un viaggio negli ultimi quattro decenni di storia dell'organizzazione delle conoscenze e dell'information retrieval, identificandone cinque tappe salienti: prevalenza dei documenti a stampa; comparsa di strumenti informatici gestiti da esperti; primi strumenti informatici direttamente accessibili al pubblico, con interfacce a soli caratteri; sviluppo degli strumenti per il pubblico con interfacce grafiche, multimedialità e accesso da casa; diffusione di documenti digitali in rete per gli usi più diversi, accessibili via Web nonché da dispositivi mobili. Per illustrare tale evoluzione, Rowley ha utilizzato alcuni documenti esemplificativi delle rispettive epoche, quali le peripezie di due utenti alla ricerca di specifiche informazioni nei diversi contesti del 1972 e del 1997, nonché regole di catalogazione, indici e schemi presenti in trattazioni di diversi periodi.
Ia McIlwaine (University College London), veterana del settore, ha delineato con simpatica energia una sintesi delle principali tendenze di ricerca attuali, sulla base di una rassegna della letteratura specializzata. Gli schemi di indicizzazione universali, come CDD, CDU, LCC [Library of Congress Classification] e LCSH [Library of Congress Subject Headings] continuano ad essere aggiornati, in particolare con un crescente uso dell'analisi a faccette, recentemente applicata anche ai soggetti LCSH nel progetto FAST - Faceted Application of Subject Terminology. Sempre più rilevante anche il ruolo del Web, sia nel rendere disponibili le versioni digitali degli schemi, destinate a soppiantare quelle cartacee, sia come loro campo di applicazione per organizzare i contenuti. I limiti dei motori di ricerca nel caso di ricerche non banali sono noti: si cerca di superarli integrandoli con vocabolari e altri approcci sofisticati, quali logica fuzzy, probabilistica, elaborazione della lingua naturale, classificazione automatica. Qualche autore si interessa anche all'organizzazione dei contenuti in grandi siti commerciali come Amazon ed eBay. La ricerca di linguaggi universali più soddisfacenti dal punto di vista teorico sembra essere fuori moda: ci si dedica piuttosto all'interoperabilità tra i diversi linguaggi esistenti, da realizzare attraverso sistemi automatici di mapping, generalmente adottando la CDD come riferimento comune. Diversi lavori evidenziano i pregiudizi culturali presenti nei linguaggi di indicizzazione: se talvolta questi possono essere motivati, ad esempio in contesti locali o religiosi, tuttavia confliggono con l'esigenza di universalità. Connesso a questo è il problema della limitazione di molti strumenti alla lingua inglese: troppo poche sono, secondo McIlwaine, le ricerche nella direzione dell'accessibilità per utenti non anglofoni, quale il progetto MACS – Multilingual access to subjects, che stabilisce equivalenze tra intestazioni per soggetto in inglese, francese e tedesco. Peraltro, tra gli strumenti più largamente prodotti e utilizzati, anche con l'ausilio di appositi software, spiccano tuttora i tesauri.
Birger Hjørland (Royal School of Library and Information Science, Copenhagen) ha sottolineato come lo sviluppo dell'organizzazione delle conoscenze sia stato in biblioteconomia prevalentemente guidato dalle tecnologie man mano introdotte: dall'indicizzazione manuale, alla diffusione di repertori di documentazione internazionale, alle tecniche di analisi di citazione, all'avvento dei calcolatori e a quello di Internet; questa dipendenza dalla tecnologia evidenzia la mancanza di un nucleo teorico costante, sul quale la disciplina si dovrebbe invece fondare. D'altra parte, il campo dell'organizzazione delle conoscenze travalica i confini della biblioteconomia: occorre considerare non soltanto la sua componente intellettuale, ma anche il contesto filosofico dal quale i suoi sistemi sono originati, e quello sociale nel quale le informazioni sono utilizzate. La struttura degli strumenti di organizzazione delle informazioni dipende dai paradigmi epistemologici che essi implicitamente adottano: ad esempio, il clustering di documenti simili e l'analisi della soddisfazione degli utenti rappresentano approcci empiristi, l'analisi a faccette un approccio razionalista, la divisione per discipline a seconda del loro sviluppo (presente anche nella CDD) un approccio storicista, l'analisi critica basata sul contesto culturale (adottata dallo stesso relatore) un approccio pragmatista. Hjørland ha pertanto invocato una maggiore attenzione a tali aspetti epistemologici. Le relazioni fra sistemi storici di organizzazione della conoscenza (Aristotele, Francis Bacon, l'Encyclopédie, Dewey, Cutter, Putnam, Ranganathan) sono state discusse anche dai coniugi statunitensi Jack e Rhonda Glazier e dall'italo-spagnola Giovanna Gabriele Muñiz, che ha citato tra l'altro Serrai.
La rilevanza delle categorie culturali è stata poi affrontata da Hope Olson (University of Alberta - School of Library and Information Studies), autrice di un recente volume sulle imposizioni culturali implicite nelle intestazioni per soggetto, adottando il decostruttivismo di Derrida: si tratta di un metodo post-strutturalista che evidenzia le assunzioni fondamentali soggiacenti ai principî in uso, qui considerato in particolare per quanto riguarda una prospettiva femminista e post-coloniale. La decostruzione può renderci maggiormente consapevoli delle influenze presenti nelle strutture categoriali, a fronte delle odierne pressioni per l'adozione di schemi standard nell'organizzazione della conoscenza.
Fabrizio Sebastiani (CNR - Istituto di Scienza e Tecnologie dell'Informazione, Pisa) ha efficacemente esposto i principî fondamentali e le tendenze di ricerca nella classificazione (o categorizzazione) automatica di testi. Il compito di questa tecnica è l'attribuzione di documenti digitali alle categorie di uno schema predefinito, che può essere anche una classificazione bibliografica. Articoli scientifici, pagine web, richieste di brevetto, dispacci d'agenzia e simili categorie di documenti sono spesso troppo numerosi per poter essere classificati a mano: essi allora possono essere raggruppati analizzando con appositi programmi la distribuzione delle parole che costituiscono il loro testo, e confrontandola statisticamente con quella di un corpus di documenti di riferimento già classificati (questa funzione non va dunque confusa con la generazione automatica delle categorie stesse, che è detta invece clustering). Le categorie possono essere anche solo due (pertinente/non pertinente) nel caso di applicazioni come il filtraggio di pubblicità indesiderata o l'attribuzione di paternità a un testo non firmato. L'efficacia di questa tecnologia è oggi paragonabile a quella dei procedimenti manuali; d'altra parte un suo raffinamento per mezzo di caratterizzazioni linguistiche (marcatura di classi grammaticali, disambiguazione di sinonimi, integrazione con tesauri ecc., suggerite da alcune domande del pubblico) a dispetto dei notevoli sforzi non produce miglioramenti significativi, probabilmente in quanto le proprietà statistiche dei testi non ne vengono incrementate: ad esempio, la disambiguazione si realizza già automaticamente per la semplice compresenza di altri termini.
Infine, María José López-Huertas (Universidad de Granada) ha fornito dati statistici sulla letteratura del settore pubblicata in Spagna fra il 1992 e il 2001: fra le 232 monografie e i 330 articoli considerati, si osserva una notevole dispersione degli autori, di cui solo pochi risultano attivi regolarmente; il tipo di linguaggi di indicizzazione sui quali si pubblica di più sono i tesauri, mentre la classificazione più trattata è la CDU. Ai fini dell'indagine, la relatrice ha dovuto porsi il problema di definire i confini della knowledge organization: questa espressione, usata già da Bliss nel titolo di un libro del 1933, rappresenta in effetti un ampliamento del termine più tradizionale classification, includendo sia le altre forme di indicizzazione semantica che, come affermato da Hjørland, la strutturazione del sapere al di fuori delle Scienze dell'informazione, ad esempio nella denominazione di cattedre e istituzioni accademiche.
Come si vede, quindi, il dibattito sull'organizzazione delle conoscenze
si sta sviluppando prevalentemente lungo due direzioni: una tecnica,
largamente rappresentata nei numerosi interventi brevi, spesso dedicati
alla presentazione di programmi per la gestione delle risorse digitali;
ed una sociologica, meno applicativa e più orientata a discutere
criticamente le influenze storiche e culturali sulla strutturazione delle
idee. Quasi del tutto latitante è una terza possibile prospettiva,
che possiamo definire ontologico-scientifica, vòlta a indagare i
fondamenti naturali delle categorie, ai quali la componente culturale si
sovrappone; questo approccio, che è auspicabile torni a completare
il dibattito nel settore, come avveniva nei decenni passati grazie al Classification
Research Group e a Ingetraut Dahlberg, è peraltro sostenuto da membri
italiani dell'ISKO quali Giliola Negrini e Roberto Poli.