Les LLM atteignent des performances équivalentes à celles d'un adulte humain dans les tâches de théorie de l'esprit d'ordre supérieur.
LLMs achieve adult human performance on higher-order theory of mind tasks
May 29, 2024
Auteurs: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI
Résumé
Cet article examine dans quelle mesure les grands modèles de langage (LLM) ont développé une théorie de l'esprit (ToM) d'ordre supérieur ; la capacité humaine à raisonner de manière récursive sur des états mentaux et émotionnels multiples (par exemple, je pense que tu crois qu'elle sait). Cet article s'appuie sur des travaux antérieurs en introduisant une suite de tests manuscrite -- Multi-Order Theory of Mind Q&A -- et en l'utilisant pour comparer les performances de cinq LLM à un nouveau benchmark établi auprès d'adultes humains. Nous constatons que GPT-4 et Flan-PaLM atteignent respectivement un niveau équivalent et proche de celui des adultes sur les tâches de ToM en général, et que GPT-4 dépasse les performances humaines sur les inférences de 6ème ordre. Nos résultats suggèrent qu'il existe une interaction entre la taille du modèle et le fine-tuning pour la réalisation des capacités de ToM, et que les LLM les plus performants ont développé une capacité généralisée pour la ToM. Compte tenu du rôle que joue la ToM d'ordre supérieur dans un large éventail de comportements humains coopératifs et compétitifs, ces découvertes ont des implications significatives pour les applications LLM destinées aux utilisateurs.
English
This paper examines the extent to which large language models (LLMs) have
developed higher-order theory of mind (ToM); the human ability to reason about
multiple mental and emotional states in a recursive manner (e.g. I think that
you believe that she knows). This paper builds on prior work by introducing a
handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to
compare the performance of five LLMs to a newly gathered adult human benchmark.
We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level
performance on ToM tasks overall, and that GPT-4 exceeds adult performance on
6th order inferences. Our results suggest that there is an interplay between
model size and finetuning for the realisation of ToM abilities, and that the
best-performing LLMs have developed a generalised capacity for ToM. Given the
role that higher-order ToM plays in a wide range of cooperative and competitive
human behaviours, these findings have significant implications for user-facing
LLM applications.Summary
AI-Generated Summary