Il trattamento e la consultazione di dati scientifici mediante ipertesti e CSCW

Il trattamento e la consultazione di dati scientifici mediante ipertesti e CSCW

Andrea Leone, Gianluigi Zanetti


Sommario:

L'attuale potenza di calcolo delle workstation a disposizione dei ricercatori ha reso possibile, in un ambiente unificato, il trattamento e lo scambio in rete dei dati grezzi prodotti dalle simulazioni, testo, grafici, immagini, animazioni e suono. Quindi, è in linea di principio possibile cavalcare l'onda dell'esplosione di informazione creando un ``paper-less research lab''. In questo articolo, descriveremo un sistema sperimentale che permette, in modo integrato, la consultazione ipertestuale di dati scientifici ed informazioni (come articoli scientifici, immagini, note tecniche e programmi) in un ambiente di lavoro collaborativo distribuito.

Indice

La diffusione delle workstation in ambiente di ricerca

Negli ultimi anni si è avuta una notevole evoluzione nel tipo e quantità delle risorse di calcolo a disposizione della ricerca scientifica.

L'aumento delle prestazioni (e la diminuzione del costo) delle workstation ha, infatti, portato ad una decentralizzazione di parte del calcolo scientifico da super-computers a workstation individuali, ed ha, allo stesso tempo, influito sull'evolversi di tecniche di elaborazione e visualizzazione dati molto sofisticate. Come conseguenza, ci troviamo ora di fronte a delle masse enormi di dati, sia direttamente generati da programmi di simulazione, sia ottenuti da succesive elaborazioni (grafici, immagini e animazioni) dei precedenti.

Contemporanemente all'aumento delle prestazioni delle workstation, si è avuto uno sviluppo vertiginoso delle tecnologie di networking e della rete geografica mondiale, Internet. La possibilità di interagire con ricercatori di istituzioni diverse attraverso Internet ha cambiato anche il modo in cui si conducono progetti di ricerca che coinvolgono ricercatori affiliati a laboratori geograficamente lontani. Mentre in precedenza le collaborazioni richiedevano frequenti viaggi, allo scopo di scambiarsi informazioni e risultati, ora si sta evolvendo verso sistemi di CSCW (Computer Suppported Collaborative Workgroup) basati sulla possibilità di scambiarsi molto velocemente informazioni attraverso la rete.

In breve, l'evoluzione tecnologica sta iniziando a spostare il grosso dei problemi informatici nel campo del calcolo scientifico dalla produzione dell'informazione alla sua gestione in un ambiente distribuito.

L'aumento della potenza di calcolo a disposizione ha reso possibile, in un ambiente unificato, il trattamento dei dati grezzi prodotti dalle simulazioni, testo, grafici, immagini, animazioni e suono. Quindi, è in linea di principio possibile cavalcare l'onda dell'esplosione di informazione creando un ``paper-less research lab''.

In questo articolo, descriveremo un sistema sperimentale che permette, in modo integrato, la consultazione ipertestuale di dati scientifici ed informazioni (come articoli scientifici, immagini, note tecniche e programmi) in un ambiente di lavoro collaborativo distribuito. La fig. ne illustra, schematicamente, l'architettura.

Il sistema è organizzato attorno a due canali di comunicazione dati, dedicati, rispettivamente, al trasporto di documenti ipertestuali ed al trasferimento di grossi blocchi di dati. Entrambi i canali sono, in effetti, dei layer software costruiti sopra TCP/IP.

Il quadrato al centro della figura rappresenta lo strumento principale per accedere alle informazioni contenute nel sistema: il browser ipertestuale. Nell'implementazione attuale, utilizziamo come browser ipertestuale il programma Mosaic dell'NCSA [5] (Mosaic è disponibile per varie workstation Unix e, a breve, per Macintosh e PC).

Attraverso il protocollo WWW (World-Wide-Web) per il trasporto di documenti ipertestuali, sviluppato al CERN, il browser può accedere a file locali o richiedere informazioni a processi (server o gateway) che risiedono su macchine collegate in rete. Mentre un server ``capisce'' direttamente le richieste espresse nel formato WWW, i gateway traducono le richieste WWW in richieste comprensibili da altri programmi ``distributori di informazioni'' come, ad esempio, l'interfaccia di un sistema di consultazione di una biblioteca.

Il browser ipertestuale può anche comunicare, attraverso un protocollo ottimizato per il trasferimento di grossi blocchi di dati (DTM, Data Transfer Mechanism, sviluppato al NCSA), con programmi di visualizzazione scientifica, di data analisi, e, infine con strumenti CSCW per il lavoro collaborativo sui dati scientifici.

Il nostro sistema è basato su software scritto (e distribuito gratuitamente) al NCSA, CERN, SCRI ed altri laboratori. Infatti, come politica generale, abbiamo cercato di evitare il più possibile la duplicazione di software già esistente, come, ad esempio, sistemi di visualizzazione general-purpose, e ci siamo concentrati sulla ``colla'' software necessaria a far sì che le singole parti del sistema possano collaborare.

Consultazione

Per spiegare come viene usato in pratica il nostro sistema verranno descritti nei prossimi paragrafi due possibili scenari.

Consultazione dei testi

Le informazioni memorizzate nel sistema sono viste dall'utente di Mosaic come una collezione di pagine, contenenti testo e immagini. Nell'uso comune, l'utente naviga da una pagina all'altra selezionando con il mouse regioni evidenziate del testo, chiamati hot-button o anchor. La fig. , è questa sezione dell'articolo che state leggendo adesso, vista usando Mosaic.

Per esempio, selezionando un riferimento bibliografico come questo [1], richiamerà il testo della referenza.

Una pagina mostrata da Mosaic non corrisponde necessariamente ad una pagina di un documento memorizzata in un file su disco, ma può essere prodotta su richiesta dell'utente, da uno dei server connessi al network-bus WWW. Per esempio, premendo qui, si puo' accedere ad un documento iper-testuale che elenca gli eventi di questa settimana, come seminari, concerti e meeting nell'area di Cagliari. Quest'ultimo documento viene generato ogni volta che una richiesta viene inoltrata al server degli eventi.

All'interno di un documento iper-testuale, ci possono essere riferimenti ad animazioni o suoni. Premendo qui, si può accedere al documento ``Animation Gallery'', una pagina che illustra i risultati di alcune simulazioni numeriche mediante immagini ed animazioni.

Consultazione di dati scientifici

I dati generati dalle simulazioni sono salvati su disco in un formato che, assieme ad i dati veri e propri, contiene anche informazioni sulla struttura dei dati stessi. La fig. mostra come Mosaic descrive il contenuto di un file di dati. Cio' che si vede e' una pagina iper-testuale, con degli hot-buttons che permettono all'utente di navigare nel file e/o inviare i dati a programmi di visualizzazione ed analisi.

Per esempio, premendo sul bottone appropriato, si puo' inviare il blocco di dati descritto nella figura (un campo scalare definito su una griglia curvilinea) ad un programma di visualizzazione scientifica come SCRI SCIAN [6], o ad un programma di analisi come IDL [8]. I risultati della visualizzazione e dell'analisi possono essere, a loro volta, salvati come documenti iper-testuali.

Analisi collaborativa

Il network bus basato su DTM nella figura connette Mosaic con il programma di visualizzazione Collage dell'NCSA, uno strumento per analisi collaborative. Le funzionalita' di Collage sono quelle di:

Per Collage, un gruppo di lavoro e' un gruppo di utenti, ognuno con una copia di Collage configurato per comunicare con un programma server. Questo sistema garantisce che ogni azione intrapresa da uno degli utenti di Collage venga trasmessa e riprodotta a tutti gli altri utenti del gruppo. Per esempio, un utente di Collage puo' visualizzare un'immagine, e, usando gli strumenti messi a disposizione dal programma, puo' evidenziare alcune parti dell'immagine. Tutti gli altri utenti del gruppo vedranno la stessa immagine e cio' che e' stato sovrapposto, e potranno anch'essi sovrapporre su di essa (possibilmente usando colori diversi per differenziarsi), vedi fig. .

Discussione sui dati scientifici

Molti dei progetti computazionali a larga scala del CRS4 sono compiuti in collaborazione tra i ricercatori del CRS4 e di altre istituzioni. Di solito, si gestisce questa collaborazione con reciproche visite ai rispettivi laboratori, ma, lavorando allo stesso problema in due locazioni differenti e distanti, spesso c'e' la necessita' di visualizzare e discutere gli stessi dati.

Attualmente, stiamo sperimentando una configurazione simile a quella mostrata in fig. . Il ricercatore ``piu' vicino'' ai dati della simulazione usa un sistema di visualizzazione scientifica (per esempio IRIS Explorer), visualizza i dati, e quando e' soddisfatto di cio' che vede, ``pubblica'' l'immagine risultante, possibilmente con i segni e le note, agli altri partecipanti del gruppo. Questi possono cosi' discutere l'immagine ed eventualmente chiederne un'altra.

Sono stati fatti alcuni test con ricercatori dell'Universita' di Parigi, ottenendo risultati ragionevoli, anche se la connessione di rete tra Cagliari e Parigi e', al piu', di 500Kbits al secondo. Le immagini possono essere trasferite ad una velocita' ragionevole (una immagine 400x400 ad 8 bit in circa 5-10 secondi), mentre il trasferimento di cio' che viene sovrapposto e' per lo piu' istantaneo, considerando che cio' richiede la trasmissione di una quantita' minima di informazione.

Insegnamento distribuito

A titolo di esperimento, abbiamo povato a tenere un seminario ``delocalizzato'', dove il conferenziere, sedendo davanti alla propria workstation, teneva il seminario facendo apparire in successione sugli schermi dei partecipanti alla sessione (lui incluso) una serie di immagini e didascalie, utilizzando alcuni dei tools di Collage visti precedentemente per ``puntare'' l'attenzione su certe regioni del testo, eseguire schizzi, ricevere e dare feedback grafico dai partecipanti, etc. I risultati sono stati soddisfacenti, in particolare utilizzando workstation dotate di supporto per la comunicazione audio (altrimenti ``rimpiazzato'' da un collegamento telefonico di ``conference call'') e video (tramite una videocamera inclusa, come, per esempio, nella Silicon Graphics Indy o nel Macintosh Centris).

Bibliografia

1
T. Berners-Lee, The World Wide Web , CERN preprint, March 1993.

2
T. Berners-Lee, Hypertext Markup Language (HTML) , CERN preprint, March 1993.

3
The Software Development Group, NCSA, The DTM data transfer mechanism , NCSA technical report 1993.

4
The Software Development Group, NCSA, NCSA HDF specifications , NCSA technical report 1990.

5
M. Andreessen, NCSA Mosaic 2.1 technical summary NCSA technical report 1993.

6
E. Pepke, J. Murray, J. Lyons, and T. Hwu, SCIAN reference manual , SCRI, technical report 1993.

7
L. Filippini, A. O. Leone, A. Ticca, G. Zanetti CHICE, Crs4 Hypertextual Integrated Collaborative Environment , CRS4 technical report, in preparation.

8
IDL User's Guide and IDL Reference Manual, Research Systems, Inc.


(Lavoro eseguito con il contributo finanziario della Regione Autonoma Sardegna)