ChatPaper.aiChatPaper

Quão Distantes Estão os Modelos de Linguagem de Grande Escala de Agentes com Teoria da Mente?

How FaR Are Large Language Models From Agents with Theory-of-Mind?

October 4, 2023
Autores: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI

Resumo

"Pensar é para Agir." Os seres humanos podem inferir os estados mentais de outras pessoas a partir de observações—uma habilidade chamada Teoria da Mente (ToM)—e, subsequentemente, agir de forma pragmática com base nessas inferências. Benchmarks existentes de questionamento e resposta, como o ToMi, fazem perguntas aos modelos para que eles façam inferências sobre as crenças dos personagens em uma história, mas não testam se os modelos podem usar essas inferências para orientar suas ações. Propomos um novo paradigma de avaliação para modelos de linguagem de grande escala (LLMs): Pensar para Agir (T4D), que exige que os modelos conectem inferências sobre os estados mentais de outros a ações em cenários sociais. Experimentos no T4D demonstram que LLMs como GPT-4 e PaLM 2 aparentemente se destacam em rastrear as crenças dos personagens nas histórias, mas lutam para traduzir essa capacidade em ação estratégica. Nossa análise revela que o principal desafio para os LLMs está em identificar as inferências implícitas sobre os estados mentais sem que sejam explicitamente questionados, como no ToMi, que levam à escolha da ação correta no T4D. Para preencher essa lacuna, introduzimos um framework de prompt zero-shot, Prever e Refletir (FaR), que fornece uma estrutura de raciocínio que incentiva os LLMs a antecipar desafios futuros e refletir sobre possíveis ações. O FaR aumenta o desempenho do GPT-4 de 50% para 71% no T4D, superando outros métodos de prompt, como Cadeia de Pensamento e Auto-Pergunta. Além disso, o FaR generaliza para diversas estruturas de histórias e cenários fora da distribuição que também exigem inferências de ToM para escolher uma ação, consistentemente superando outros métodos, incluindo aprendizado few-shot em contexto.
English
"Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called Theory-of-Mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about beliefs of characters in a story, but do not test whether models can then use these inferences to guide their actions. We propose a new evaluation paradigm for large language models (LLMs): Thinking for Doing (T4D), which requires models to connect inferences about others' mental states to actions in social scenarios. Experiments on T4D demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking characters' beliefs in stories, but they struggle to translate this capability into strategic action. Our analysis reveals the core challenge for LLMs lies in identifying the implicit inferences about mental states without being explicitly asked about as in ToMi, that lead to choosing the correct action in T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee and Reflect (FaR), which provides a reasoning structure that encourages LLMs to anticipate future challenges and reason about potential actions. FaR boosts GPT-4's performance from 50% to 71% on T4D, outperforming other prompting methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to diverse out-of-distribution story structures and scenarios that also require ToM inferences to choose an action, consistently outperforming other methods including few-shot in-context learning.
PDF353February 8, 2026