¿Qué tan lejos están los modelos de lenguaje grandes de los agentes con teoría de la mente?
How FaR Are Large Language Models From Agents with Theory-of-Mind?
October 4, 2023
Autores: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI
Resumen
"Pensar es para Actuar." Los seres humanos pueden inferir los estados mentales de otras personas a partir de observaciones—una habilidad conocida como Teoría de la Mente (ToM, por sus siglas en inglés)—y luego actuar de manera pragmática basándose en esas inferencias. Los benchmarks existentes de respuesta a preguntas, como ToMi, plantean a los modelos preguntas para que hagan inferencias sobre las creencias de los personajes en una historia, pero no evalúan si los modelos pueden utilizar estas inferencias para guiar sus acciones. Proponemos un nuevo paradigma de evaluación para los modelos de lenguaje de gran escala (LLMs): Pensar para Actuar (T4D), que requiere que los modelos conecten inferencias sobre los estados mentales de otros con acciones en escenarios sociales. Los experimentos en T4D demuestran que LLMs como GPT-4 y PaLM 2 aparentemente sobresalen en rastrear las creencias de los personajes en las historias, pero tienen dificultades para traducir esta capacidad en acciones estratégicas. Nuestro análisis revela que el desafío central para los LLMs radica en identificar las inferencias implícitas sobre los estados mentales, que no se les preguntan explícitamente como en ToMi, y que conducen a elegir la acción correcta en T4D. Para cerrar esta brecha, introducimos un marco de prompting de cero disparos, Prever y Reflexionar (FaR), que proporciona una estructura de razonamiento que anima a los LLMs a anticipar desafíos futuros y razonar sobre acciones potenciales. FaR mejora el rendimiento de GPT-4 del 50% al 71% en T4D, superando a otros métodos de prompting como Cadena de Pensamiento y Auto-Pregunta. Además, FaR se generaliza a diversas estructuras de historias y escenarios fuera de distribución que también requieren inferencias de ToM para elegir una acción, superando consistentemente a otros métodos, incluido el aprendizaje en contexto con pocos ejemplos.
English
"Thinking is for Doing." Humans can infer other people's mental states from
observations--an ability called Theory-of-Mind (ToM)--and subsequently act
pragmatically on those inferences. Existing question answering benchmarks such
as ToMi ask models questions to make inferences about beliefs of characters in
a story, but do not test whether models can then use these inferences to guide
their actions. We propose a new evaluation paradigm for large language models
(LLMs): Thinking for Doing (T4D), which requires models to connect inferences
about others' mental states to actions in social scenarios. Experiments on T4D
demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking
characters' beliefs in stories, but they struggle to translate this capability
into strategic action. Our analysis reveals the core challenge for LLMs lies in
identifying the implicit inferences about mental states without being
explicitly asked about as in ToMi, that lead to choosing the correct action in
T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee
and Reflect (FaR), which provides a reasoning structure that encourages LLMs to
anticipate future challenges and reason about potential actions. FaR boosts
GPT-4's performance from 50% to 71% on T4D, outperforming other prompting
methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to
diverse out-of-distribution story structures and scenarios that also require
ToM inferences to choose an action, consistently outperforming other methods
including few-shot in-context learning.