À quelle distance les grands modèles de langage se trouvent-ils des agents dotés d'une théorie de l'esprit ?
How FaR Are Large Language Models From Agents with Theory-of-Mind?
October 4, 2023
Auteurs: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI
Résumé
"Penser, c'est pour agir." Les humains peuvent déduire les états mentaux d'autrui à partir d'observations—une capacité appelée Théorie de l'Esprit (ToM)—et agir ensuite de manière pragmatique en fonction de ces inférences. Les benchmarks existants de question-réponse, tels que ToMi, posent des questions aux modèles pour qu'ils infèrent les croyances des personnages dans une histoire, mais ne testent pas si les modèles peuvent ensuite utiliser ces inférences pour guider leurs actions. Nous proposons un nouveau paradigme d'évaluation pour les grands modèles de langage (LLMs) : Penser pour Agir (T4D), qui exige que les modèles relient les inférences sur les états mentaux d'autrui à des actions dans des scénarios sociaux. Les expériences sur T4D montrent que des LLMs comme GPT-4 et PaLM 2 semblent exceller dans le suivi des croyances des personnages dans les histoires, mais ils peinent à traduire cette capacité en actions stratégiques. Notre analyse révèle que le défi central pour les LLMs réside dans l'identification des inférences implicites sur les états mentaux, sans qu'elles soient explicitement demandées comme dans ToMi, qui conduisent au choix de l'action correcte dans T4D. Pour combler cette lacune, nous introduisons un cadre d'incitation zero-shot, Anticiper et Réfléchir (FaR), qui fournit une structure de raisonnement encourageant les LLMs à anticiper les défis futurs et à raisonner sur les actions potentielles. FaR améliore les performances de GPT-4 de 50% à 71% sur T4D, surpassant d'autres méthodes d'incitation comme Chain-of-Thought et Self-Ask. De plus, FaR se généralise à diverses structures d'histoires et scénarios hors distribution qui nécessitent également des inférences ToM pour choisir une action, surpassant de manière constante d'autres méthodes, y compris l'apprentissage few-shot en contexte.
English
"Thinking is for Doing." Humans can infer other people's mental states from
observations--an ability called Theory-of-Mind (ToM)--and subsequently act
pragmatically on those inferences. Existing question answering benchmarks such
as ToMi ask models questions to make inferences about beliefs of characters in
a story, but do not test whether models can then use these inferences to guide
their actions. We propose a new evaluation paradigm for large language models
(LLMs): Thinking for Doing (T4D), which requires models to connect inferences
about others' mental states to actions in social scenarios. Experiments on T4D
demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking
characters' beliefs in stories, but they struggle to translate this capability
into strategic action. Our analysis reveals the core challenge for LLMs lies in
identifying the implicit inferences about mental states without being
explicitly asked about as in ToMi, that lead to choosing the correct action in
T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee
and Reflect (FaR), which provides a reasoning structure that encourages LLMs to
anticipate future challenges and reason about potential actions. FaR boosts
GPT-4's performance from 50% to 71% on T4D, outperforming other prompting
methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to
diverse out-of-distribution story structures and scenarios that also require
ToM inferences to choose an action, consistently outperforming other methods
including few-shot in-context learning.