Gran parte dell’entusiasmo per l’intelligenza artificiale negli ultimi dieci anni è venuto dai risultati delle reti neurali, sistemi costruiti su un’analogia di come il cervello umano elabora le informazioni attraverso insiemi di neuroni. Il deep learning, in cui i dati passano attraverso molti strati di una rete neurale, è stato ciò che ha portato alla creazione del chatbot ChatGPT. Gli studi sul capodoglio, sull’elefante e sull’uistitì, tuttavia, hanno utilizzato forme precedenti di intelligenza artificiale note come alberi decisionali e foreste casuali.
Un albero decisionale è un algoritmo di classificazione che assomiglia a un diagramma di flusso. Potrebbe chiedere, ad esempio, se il suono che gli è stato dato ha una frequenza superiore a un certo valore. In caso affermativo, potrebbe quindi chiedere se la chiamata dura per un certo periodo di tempo, e così via, fino a quando non avrà deciso se la chiamata corrisponde alle variabili acustiche che è stato addestrato a cercare utilizzando set di dati etichettati come esseri umani. Una foresta casuale è una raccolta di molti alberi decisionali, ciascuno costruito da un sottoinsieme di dati scelto casualmente.
Kurt Fristrup, un biologo evoluzionista della Colorado State University che ha scritto l’algoritmo della foresta casuale per il progetto dell’elefante, afferma che gli algoritmi basati sugli alberi presentano diversi vantaggi per questo tipo di lavoro. Per prima cosa, possono lavorare con meno informazioni di quelle necessarie per addestrare una rete neurale, e anche migliaia di ore di registrazioni di richiami di animali rappresentano ancora un set di dati relativamente piccolo. Inoltre, a causa del modo in cui gli algoritmi basati su alberi scompongono le variabili, è improbabile che vengano confusi da dati etichettati erroneamente o senza etichetta.
La foresta casuale fornisce anche un modo per verificare che chiamate simili corrispondano: chiamate diverse che mostrano le stesse caratteristiche dovrebbero finire ciascuna nella stessa “foglia” di un singolo albero. “Dato che ce n’erano nell’ordine di un migliaio di questi alberi, si ottiene una misura abbastanza dettagliata di quanto siano simili due richiami in base alla frequenza con cui cadono nella stessa foglia”, dice Fristrup.
È anche più facile capire come un algoritmo a foresta casuale sia giunto a una conclusione particolare rispetto al deep learning, che può produrre risposte che lasciano gli scienziati a grattarsi la testa su come il modello abbia raggiunto la sua decisione. “I modelli di deep learning rendono possibile o addirittura facile ottenere tutti i tipi di risultati che non potremmo ottenere in nessun altro modo”, afferma Fristrup. Ma se gli scienziati non capiscono il ragionamento che sta dietro a ciò, potrebbero non imparare “quello che avremmo imparato se fossimo entrati attraverso il percorso più vecchio, meno efficiente e meno intenso dal punto di vista computazionale” di una foresta casuale, dice.
Nonostante ciò, la capacità di una rete neurale di generalizzare da un set di dati etichettati relativamente piccolo e di scoprire modelli esaminando grandi quantità di dati non etichettati attrae molti ricercatori.
Lo specialista di apprendimento automatico Olivier Pietquin è il direttore della ricerca sull’intelligenza artificiale presso l’ Progetto sulle specie terrestriun team internazionale con sede a Berkeley, in California, che utilizza l’intelligenza artificiale per decodificare le comunicazioni delle specie animali. Vuole sfruttare la capacità delle reti neurali di generalizzare da un set di dati a un altro addestrando modelli utilizzando non solo un’ampia gamma di suoni di diversi animali, ma anche altri dati acustici, tra cui il linguaggio umano e la musica.
La speranza è che il computer possa ricavare alcune caratteristiche fondamentali del suono prima di basarsi su tale comprensione per riconoscere specificamente le caratteristiche delle vocalizzazioni degli animali. Questo è lo stesso modo in cui un algoritmo di riconoscimento delle immagini addestrato su immagini di volti umani apprende alcune caratteristiche di base dei pixel che descrivono prima un ovale e poi un occhio. L’algoritmo può quindi prendere queste basi e riconoscere il volto di un gatto, anche se i volti umani costituiscono la maggior parte dei suoi dati di addestramento.
“Potremmo immaginare di utilizzare i dati del parlato e sperare che vengano trasferiti a qualsiasi altro animale dotato di tratto vocale e corde vocali”, afferma Pietquin. Il fischio prodotto da un flauto, ad esempio, potrebbe essere abbastanza simile al fischio di un uccello da consentire al computer di trarre deduzioni da esso.
Un modello addestrato in questo modo potrebbe essere utile per identificare quali suoni trasmettono informazioni e quali sono solo rumore. Per capire cosa potrebbero significare i richiami, tuttavia, è ancora necessario che una persona osservi il comportamento dell’animale e aggiunga etichette a ciò che il computer ha identificato. Identificare il discorso, che è ciò che i ricercatori stanno attualmente cercando di ottenere, è solo un primo passo verso la sua comprensione. “Comprendere è davvero un passo difficile”, afferma Pietquin.