Los LLM alcanzan un rendimiento comparable al de un adulto humano en tareas de teoría de la mente de orden superior.
LLMs achieve adult human performance on higher-order theory of mind tasks
May 29, 2024
Autores: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI
Resumen
Este artículo examina hasta qué punto los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han desarrollado una teoría de la mente (ToM, por sus siglas en inglés) de orden superior; la capacidad humana de razonar sobre múltiples estados mentales y emocionales de manera recursiva (por ejemplo, "pienso que tú crees que ella sabe"). Este trabajo se basa en investigaciones previas al introducir un conjunto de pruebas escritas a mano -- Preguntas y Respuestas sobre Teoría de la Mente de Múltiples Órdenes -- y utilizarlo para comparar el rendimiento de cinco LLMs con un nuevo punto de referencia recopilado de adultos humanos. Encontramos que GPT-4 y Flan-PaLM alcanzan un rendimiento a nivel de adulto y cercano al de adulto en tareas de ToM en general, y que GPT-4 supera el rendimiento humano en inferencias de sexto orden. Nuestros resultados sugieren que existe una interacción entre el tamaño del modelo y el ajuste fino para la realización de habilidades de ToM, y que los LLMs con mejor rendimiento han desarrollado una capacidad generalizada para la ToM. Dado el papel que desempeña la ToM de orden superior en una amplia gama de comportamientos humanos cooperativos y competitivos, estos hallazgos tienen implicaciones significativas para las aplicaciones de LLMs orientadas al usuario.
English
This paper examines the extent to which large language models (LLMs) have
developed higher-order theory of mind (ToM); the human ability to reason about
multiple mental and emotional states in a recursive manner (e.g. I think that
you believe that she knows). This paper builds on prior work by introducing a
handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to
compare the performance of five LLMs to a newly gathered adult human benchmark.
We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level
performance on ToM tasks overall, and that GPT-4 exceeds adult performance on
6th order inferences. Our results suggest that there is an interplay between
model size and finetuning for the realisation of ToM abilities, and that the
best-performing LLMs have developed a generalised capacity for ToM. Given the
role that higher-order ToM plays in a wide range of cooperative and competitive
human behaviours, these findings have significant implications for user-facing
LLM applications.Summary
AI-Generated Summary