I LLM raggiungono prestazioni pari a quelle umane adulte nei compiti di teoria della mente di ordine superiore.
LLMs achieve adult human performance on higher-order theory of mind tasks
May 29, 2024
Autori: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI
Abstract
Questo articolo esamina fino a che punto i grandi modelli linguistici (LLM) abbiano sviluppato una teoria della mente (ToM) di ordine superiore; la capacità umana di ragionare su stati mentali ed emotivi multipli in modo ricorsivo (ad esempio, penso che tu creda che lei sappia). Questo lavoro si basa su ricerche precedenti introducendo una suite di test scritti a mano -- Multi-Order Theory of Mind Q&A -- e utilizzandola per confrontare le prestazioni di cinque LLM con un nuovo benchmark raccolto da adulti umani. Scopriamo che GPT-4 e Flan-PaLM raggiungono prestazioni a livello adulto e quasi adulto nei compiti di ToM complessivamente, e che GPT-4 supera le prestazioni degli adulti nelle inferenze di 6° ordine. I nostri risultati suggeriscono che esiste un'interazione tra la dimensione del modello e l'ottimizzazione per la realizzazione delle capacità di ToM, e che i migliori LLM hanno sviluppato una capacità generalizzata per la ToM. Considerando il ruolo che la ToM di ordine superiore svolge in una vasta gamma di comportamenti umani cooperativi e competitivi, questi risultati hanno implicazioni significative per le applicazioni LLM rivolte agli utenti.
English
This paper examines the extent to which large language models (LLMs) have
developed higher-order theory of mind (ToM); the human ability to reason about
multiple mental and emotional states in a recursive manner (e.g. I think that
you believe that she knows). This paper builds on prior work by introducing a
handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to
compare the performance of five LLMs to a newly gathered adult human benchmark.
We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level
performance on ToM tasks overall, and that GPT-4 exceeds adult performance on
6th order inferences. Our results suggest that there is an interplay between
model size and finetuning for the realisation of ToM abilities, and that the
best-performing LLMs have developed a generalised capacity for ToM. Given the
role that higher-order ToM plays in a wide range of cooperative and competitive
human behaviours, these findings have significant implications for user-facing
LLM applications.