ChatPaper.aiChatPaper

À quelle distance les grands modèles de langage se trouvent-ils des agents dotés d'une théorie de l'esprit ?

How FaR Are Large Language Models From Agents with Theory-of-Mind?

October 4, 2023
Auteurs: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI

Résumé

"Penser, c'est pour agir." Les humains peuvent déduire les états mentaux d'autrui à partir d'observations—une capacité appelée Théorie de l'Esprit (ToM)—et agir ensuite de manière pragmatique en fonction de ces inférences. Les benchmarks existants de question-réponse, tels que ToMi, posent des questions aux modèles pour qu'ils infèrent les croyances des personnages dans une histoire, mais ne testent pas si les modèles peuvent ensuite utiliser ces inférences pour guider leurs actions. Nous proposons un nouveau paradigme d'évaluation pour les grands modèles de langage (LLMs) : Penser pour Agir (T4D), qui exige que les modèles relient les inférences sur les états mentaux d'autrui à des actions dans des scénarios sociaux. Les expériences sur T4D montrent que des LLMs comme GPT-4 et PaLM 2 semblent exceller dans le suivi des croyances des personnages dans les histoires, mais ils peinent à traduire cette capacité en actions stratégiques. Notre analyse révèle que le défi central pour les LLMs réside dans l'identification des inférences implicites sur les états mentaux, sans qu'elles soient explicitement demandées comme dans ToMi, qui conduisent au choix de l'action correcte dans T4D. Pour combler cette lacune, nous introduisons un cadre d'incitation zero-shot, Anticiper et Réfléchir (FaR), qui fournit une structure de raisonnement encourageant les LLMs à anticiper les défis futurs et à raisonner sur les actions potentielles. FaR améliore les performances de GPT-4 de 50% à 71% sur T4D, surpassant d'autres méthodes d'incitation comme Chain-of-Thought et Self-Ask. De plus, FaR se généralise à diverses structures d'histoires et scénarios hors distribution qui nécessitent également des inférences ToM pour choisir une action, surpassant de manière constante d'autres méthodes, y compris l'apprentissage few-shot en contexte.
English
"Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called Theory-of-Mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about beliefs of characters in a story, but do not test whether models can then use these inferences to guide their actions. We propose a new evaluation paradigm for large language models (LLMs): Thinking for Doing (T4D), which requires models to connect inferences about others' mental states to actions in social scenarios. Experiments on T4D demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking characters' beliefs in stories, but they struggle to translate this capability into strategic action. Our analysis reveals the core challenge for LLMs lies in identifying the implicit inferences about mental states without being explicitly asked about as in ToMi, that lead to choosing the correct action in T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee and Reflect (FaR), which provides a reasoning structure that encourages LLMs to anticipate future challenges and reason about potential actions. FaR boosts GPT-4's performance from 50% to 71% on T4D, outperforming other prompting methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to diverse out-of-distribution story structures and scenarios that also require ToM inferences to choose an action, consistently outperforming other methods including few-shot in-context learning.
PDF353December 15, 2024