ChatPaper.aiChatPaper

Hoe Ver Zijn Grote Taalmodellen Van Agents Met Theory-of-Mind?

How FaR Are Large Language Models From Agents with Theory-of-Mind?

October 4, 2023
Auteurs: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI

Samenvatting

"Denken is voor Doen." Mensen kunnen de mentale toestanden van anderen afleiden uit observaties—een vaardigheid die Theory-of-Mind (ToM) wordt genoemd—en vervolgens pragmatisch handelen op basis van die inferenties. Bestaande vraag-antwoordbenchmarks zoals ToMi stellen modellen vragen om inferenties te maken over de overtuigingen van personages in een verhaal, maar testen niet of modellen deze inferenties vervolgens kunnen gebruiken om hun acties te sturen. Wij stellen een nieuw evaluatieparadigma voor voor grote taalmmodellen (LLMs): Thinking for Doing (T4D), dat vereist dat modellen inferenties over de mentale toestanden van anderen verbinden met acties in sociale scenario's. Experimenten met T4D laten zien dat LLMs zoals GPT-4 en PaLM 2 ogenschijnlijk uitblinken in het volgen van de overtuigingen van personages in verhalen, maar ze hebben moeite om deze vaardigheid om te zetten in strategisch handelen. Onze analyse onthult dat de kernuitdaging voor LLMs ligt in het identificeren van de impliciete inferenties over mentale toestanden, zonder dat hier expliciet naar wordt gevraagd zoals in ToMi, die leiden tot het kiezen van de juiste actie in T4D. Om deze kloof te overbruggen, introduceren we een zero-shot prompting-framework, Foresee and Reflect (FaR), dat een redeneerstructuur biedt die LLMs aanmoedigt om toekomstige uitdagingen te voorzien en na te denken over mogelijke acties. FaR verbetert de prestaties van GPT-4 van 50% naar 71% op T4D, en overtreft andere prompting-methoden zoals Chain-of-Thought en Self-Ask. Bovendien generaliseert FaR naar diverse out-of-distribution verhaalstructuren en scenario's die ook ToM-inferenties vereisen om een actie te kiezen, en presteert het consistent beter dan andere methoden, waaronder few-shot in-context learning.
English
"Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called Theory-of-Mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about beliefs of characters in a story, but do not test whether models can then use these inferences to guide their actions. We propose a new evaluation paradigm for large language models (LLMs): Thinking for Doing (T4D), which requires models to connect inferences about others' mental states to actions in social scenarios. Experiments on T4D demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking characters' beliefs in stories, but they struggle to translate this capability into strategic action. Our analysis reveals the core challenge for LLMs lies in identifying the implicit inferences about mental states without being explicitly asked about as in ToMi, that lead to choosing the correct action in T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee and Reflect (FaR), which provides a reasoning structure that encourages LLMs to anticipate future challenges and reason about potential actions. FaR boosts GPT-4's performance from 50% to 71% on T4D, outperforming other prompting methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to diverse out-of-distribution story structures and scenarios that also require ToM inferences to choose an action, consistently outperforming other methods including few-shot in-context learning.
PDF353February 8, 2026