Symbol grounding transfer con reti neurali ibride: Implicazioni per i modelli di vita artificiale

 

Thomas Riga

 

Università di Genova e University of Plymouth

thomasriga@yahoo.com

 

 

1. Il problema del symbol grounding

 

L’interpretabilità semantica è di grande importanza per la modellazione di sistemi cognitivi. Infatti questo è stato il tema centrale del computazionalismo, secondo cui la mente è un sistema simbolico e la cognizione consiste nella manipolazione di simboli governati da regole (Fodor, 1975; Pylyshyn, 1984). Questo approccio non risolve però un problema fondamentale: cioè il processo con il quale questi simboli sono collegati ai loro significati. I simboli usati nei sistemi cognitivisti simbolici non hanno un significato inerente, in quanto questo risiede nella mente di chi interpreta il sistema stesso.

Questo problema del symbol grounding (Harnad, 1990), che si presenta per tutti i modelli cognitivisti che considerano l’apprendimento e l’evoluzione del linguaggio, può essere affrontato usando la metodologia connessionista. Vari modelli che sono in grado di estrarre le caratteristiche invarianti degli stimoli presentati e ad associarvi etichette “linguistiche” sono stati implementati (Plunkett, Sinha, Moller & Strandsby, 1992; Cangelosi, Greco & Harnad, 2000). Tuttavia collegare dei nomi a certe categorie concettuali non basta per sviluppare un linguaggio ed esprimere significati più complessi attraverso proposizioni. I simboli che non fossero fondati su precedenti rappresentazioni di origine sensomotoria sarebbero vuoti: la definizione conterrebbe altri simboli bisognosi di definizione e cosí via in un circolo vizioso (Harnad, 1990).

Il modello qui presentato implementa un sistema cognitivo autonomo, immune al problema del symbol grounding, in cui i simboli sono intrinsicamente connessi con le categorie che vengono acquisite attraverso l’interazione con l’ambiente. Questi simboli vengono nella fase successiva impiegati per costruire proposizioni che descrivono nuove categorie di stimoli. Nuovi simboli sono in questo modo definiti senza avere un’esperienza diretta del referente. Questo processo di grounding transfer permette al sistema di esprimere significati che vanno oltre la percezione immediata. Nuovi simboli, acquisiti esclusivamente attraverso descrizioni simboliche, risultano comunque essere fondati sull’esperienza che il sistema ha dell’ambiente.

 

2. Un’architettura neurale ibrida

 

Il presente modello implementa reti neurali composte da due moduli e una retina. Esso consiste in un’estensione del modello connessionista del symbol grounding di Cangelosi et al. (Cangelosi, Greco e Harnad, 2000; Greco, Riga & Cangelosi, in stampa). Sulla retina vengono proiettate delle immagini che vengono categorizzate nel primo modulo. Il secondo modulo riceve in input le rappresentazioni emerse nel primo modulo ed inoltre riceve un input simbolico nella forma di sequenze binarie. Nelle reti coesistono due algoritmi di apprendimento: il primo modulo non supervisionato categorizza le immagini che riceve sulla retina sfruttando i Self Organising Maps (Kohonen, 1995), mentre il secondo modulo collega le rappresentazioni, emerse dall’apprendimento iniziale, a simboli usando l’algoritmo della Backpropagation (McClelland et al., 1986).

I Self Organising Maps sono il risultato di un algoritmo di quantizzazione vettoriale che genera una “mappatura” dallo spazio multi-dimensionale, in cui sono definiti gli stimoli, ad una matrice bidimensionale in cui viene espresso il grado di similarità degli stimoli. Il primo modulo costruisce in questo modo autonomamente una matrice di attivazione  in cui viene espresso l’ordine intrinseco dell’insieme degli stimoli.

Il secondo modulo riceve, insieme alla matrice di attivazione del primo modulo, un input simbolico rappresentato da pattern arbitrari. Gli stimoli visivi vengono collegati all’input e output simbolici attraverso un processo di apprendimento diretto in cui immagini e simboli vengono presentati contemporaneamente. L’apprendimento in questo caso è supervisionato ed avviene attraverso la determinazione dell’errore in output con la regola delta e la sua successiva retropropagazione per correggere i pesi delle connessioni del secondo modulo. In questo modo i simboli vengono fondati sulle rappresentazioni del primo modulo non supervisionato e sono quindi fondati sull’esperienza dell’ambiente circostante.

 

3. Un apprendimento incrementale

 

L’apprendimento avviene in modo incrementale: le reti affrontano durante tre fasi compiti sempre più difficili basandosi sulle rappresentazioni emerse nella fase precedente. Per realizzare ciò usiamo reti in cui il modulo supervisionato contiene uno strato nascosto in cui le rappresentazioni per varie chiavi di classificazione sono localizzate in zone diverse permettendo cosí la ricombinazione di costituenti elementari discreti in altri di più alto livello.

Le reti acquisiscono nella prima fase dell’apprendimento categorie per gli stimoli presentati sulla retina attraverso un processo non supervisionato che utilizza i Self Organising Maps. Le reti generano una matrice in cui viene espresso il grado di similarità degli stimoli e che quindi contiene  implicitamente una divisione in categorie.

Durante la seconda fase viene appreso un collegato tra le rappresentazioni dell’input retinico, contenute nel modulo non supervisionato, e gli stimoli simbolici in input e output al secondo modulo. Questi stimoli simbolici corrispondono ai nomi delle categorie apprese dalle reti nella prima fase. Come algoritmo di apprendimento viene utilizzato la Backpropagation: i pesi del modulo supervisionato vengono determinati attraverso un processo di prova e correzione dell’errore. Le reti ricevono contemporaneamente in input stimoli visivi e simbolici ed imparano a produrre in output la corretta rappresentazione simbolica del nome della categoria; attraverso questo processo acquisiscono simboli che denotano le categorie sensomotorie apprese precedentemente. Questi simboli vengono fondati direttamente sulle rappresentazioni emerse dalla categorizzazione non supervisionata delle immagini, e sono quindi fondati sull’esperienza del sistema e del suo ambiente circostante.

Le reti ricevono durante la terza fase esclusivamente input simbolici, proposizioni contenenti i simboli appresi nella seconda fase, che descrivono categorie di stimoli mai presentati prima. In questo modo vengono definiti simboli nuovi senza avere un’esperienza diretta dei referenti. Il grounding dei simboli che costituiscono queste proposizioni, acquisito nella seconda fase, viene trasferito ai simboli che denotano le categorie nuove attraverso un processo di grounding transfer. Attraverso questo processo anche i simboli nuovi, appresi esclusivamente da descrizioni simboliche, acquisiscono un grounding nell’esperienza del sistema del suo ambiente.

Nell’ultima fase della simulazione vengono presentati per la prima volta gli stimoli a cui si riferiscono i simboli nuovi, affinchè si possa testare se il grounding dei simboli di base venga effettivamente trasmesso. Se le reti rispondono agli stimoli corrispondenti con il simbolo corretto, appreso esclusivamente attraverso una descrizione simbolica, si può concludere che c’è stato un trasferimento del grounding.

 

4. Il set degli stimoli

 

Nella prima fase presentiamo alle reti immagini di oggetti con colori e forme diverse. Le reti imparano durante questa fase l’ordine intrinseco dell’insieme degli stimoli e costruiscono rappresentazioni in modo non supervisionato. Nella seconda fase vengono presentati insieme a queste immagini anche stimoli simbolici: di ogni oggetto viene dato il nome del colore e della forma. Tali nomi sono rappresentati da sequenze binarie arbitrarie e costituiscono l’input ed output simbolico del sistema. Nella terza fase l’input è soltanto simbolico; vengono presentate proposizioni composte da simboli, denotanti le proprietà di forma e colore, e da un simbolo nuovo denotante il nome dell’oggetto, che viene in questo modo definito. Una proposizione potrebbe avere per esempio la forma “rosso + quadrato = DAX”.

Oltre a definire simboli che denotano oggetti già recepiti si presentano anche descrizioni di oggetti mai proiettati sulla retina. Per esempio, se presentiamo immagini di quadrati rossi e blu, triangoli verdi e rossi escludendo quadrati verdi e triangoli di colore blu, forniremo comunque descrizioni simboliche della forma “quadrato + verde = SOD”, nonostante non siano mai state proiettate immagini di quadrati verdi.

Dopo la terza fase presentiamo per la prima volta le categorie di stimoli apprese esclusivamente attraverso una descrizione simbolica. L’output risultante dimostra che le reti effettivamente rispondono con i simboli corrispondenti alle categorie di oggetti nuovi presentate, e quindi si può concludere che anche questi simboli sono fondati sull’esperienza delle reti dell’ambiente: il grounding viene effettivamente trasferito dai simboli di cui sono composte le proposizioni ai simboli nuovi.

 

5. Integrazione col paradigma della vita artificiale

 

Nel paradigma embodied, come in quello di vita artificiale, la cognizione non è spiegata solamente attraverso processi simbolici e il processo di grounding fisico dei simboli dipende dall’esperienza corporea dell’agente e dalla sua interazione con l’ambiente (Brooks, 1991). Questa impostazione è soddisfacente per lo studio di funzioni cognitive di basso livello come la percezione attiva ed il coordinamento sensomotorio (Pfeifer e Scheier, 1999). Solo recentemente l’approccio è stato esteso a modelli di funzioni cognitive basati su abilità simboliche come il linguaggio (Cangelosi & Parisi, 2002).

Nel campo della robotica situata buoni risultati sono stati ottenuti con Steels (2001), che costruisce robot che imparano un linguaggio simbolico e grounded attraverso giochi linguistici. L’accento viene posto sul fatto che il linguaggio emerge come parte di una situazione interattiva specifica. Vogt (2000), seguendo un approccio simile, definisce i simboli come collegamenti strutturali tra la realtà e l’attivazione sensomotoria derivante dall’interazione tra agente e ambiente e modella l’emergenza di questi collegamenti usando agenti robotici che giocano giochi linguistici adattivi.  Sia Steels che Vogt enfatizzano il fatto che le funzioni cognitive sono embodied attraverso l’esperienza corporea del comportamento dell’agente e situate attraverso l’interazione dell’agente con l’ambiente.

Questi studi evidenziano che un sistema multi-agente situata e embodied permette di studiare aspetti del symbol grounding e dell’evoluzione del linguaggio altrimenti fuori portata. Tale impostazione può dare un contributo significativo nel modellare l’emergenza di un sistema di comunicazione simbolica grounded dall’interazione tra agenti in un ambiente condiviso. Un approccio situato e embodied nello sviluppare un modello di agenti connessionisti, che condividono un lessico fondato nella realtà, permette di studiare come e fino a che punto l’interazione e l’esperienza corporea influenzino la struttura dei meccanismi neurali coinvolti. L’estensione del presente modello connessionista in un’ottica di vita artificiale potrebbe permettere lo studio dell’emergenza di un linguaggio grounded condiviso ed in particolare del trasferimento del symbol grounding tra agenti autonomi in un ambiente condiviso.

 

 

 

Bibliografia

 

Brooks R. A. (1991) Intelligence without representation. Artificial Intelligence Journal 47: 139-159

Cangelosi, A, Greco, A. & Harnad S. (2000) From robotic toil to symbolic theft: grounding transfer from entry-level to higher-level categories. Connection Science 12(2) 143-162

Cangelosi A. & Harnad S. (in stampa) The adaptive advantage of symbolic theft over sensorimotor toil: Grounding language in perceptual categories. Evolution of Communication

Cangelosi A. & Parisi D. (2002) Simulating the Evolution of Language. London: Springer.

Fodor, J. A. (1975) The language of thought. New York: Thomas Y. Crowell

Fodor, J. A. (1987) Psychosemantics. Cambridge MA: MIT/Bradford

Greco A., Riga T. & Cangelosi A. (in stampa). The acquisition of new categories through grounded symbols: An extended connectionist model. Joint ICANN/ICONIP 2003 Conference, Turkey, June 2003

Harnad S. (1990) The Symbol Grounding Problem. Physica D; 42:335-346

Kohonen T. (1995) Self-Organizing Maps. Springer Series in Information Sciences, Vol 30

McClelland, J. L., Rumelhart, D. E., and the PDP Research Group (1986) Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1. Cambridge MA: MIT/Bradford

Pfeifer R. & Scheier C. 1999 Understanding Intelligence. Cambridge, MA: MIT Press.

Plunkett K., Sinha C., Moller M.F. & Strandsby O. (1992) Symbol grounding or the emergence of symbols? Vocabulary growth in children and a connectionist net. Connection Science, 4, 293-312.

Pylyshyn, Z. W. (1984) Computation and cognition. Cambridge MA: MIT/Bradford

Steels L. (2001) Language games for autonomous robots. IEEE Intelligent Systems 16(5) 16-22

Vogt (2000) Bootstrapping grounded symbols by minimal autonomous robots. Evolution of communication 4(1): 89-118