Насколько крупные языковые модели близки к агентам с теорией сознания?
How FaR Are Large Language Models From Agents with Theory-of-Mind?
October 4, 2023
Авторы: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
cs.AI
Аннотация
"Мышление служит для действия." Люди способны выводить психические состояния других людей на основе наблюдений — способность, называемая Теорией сознания (Theory-of-Mind, ToM), — и затем действовать прагматично, основываясь на этих выводах. Существующие тесты для оценки вопросно-ответных систем, такие как ToMi, задают моделям вопросы, чтобы сделать выводы о убеждениях персонажей в истории, но не проверяют, могут ли модели использовать эти выводы для руководства своими действиями. Мы предлагаем новую парадигму оценки для больших языковых моделей (LLMs): "Мышление для действия" (Thinking for Doing, T4D), которая требует от моделей связывать выводы о психических состояниях других людей с действиями в социальных сценариях. Эксперименты на T4D показывают, что LLMs, такие как GPT-4 и PaLM 2, кажутся превосходными в отслеживании убеждений персонажей в историях, но они испытывают трудности в преобразовании этой способности в стратегические действия. Наш анализ выявляет основную проблему для LLMs: идентификацию неявных выводов о психических состояниях, которые не запрашиваются явно, как в ToMi, но которые приводят к выбору правильного действия в T4D. Чтобы преодолеть этот разрыв, мы вводим структуру нулевого сценария подсказок, "Предвидеть и Размышлять" (Foresee and Reflect, FaR), которая предоставляет структуру рассуждений, побуждающую LLMs предвидеть будущие вызовы и рассуждать о потенциальных действиях. FaR повышает производительность GPT-4 с 50% до 71% на T4D, превосходя другие методы подсказок, такие как "Цепочка мыслей" (Chain-of-Thought) и "Самозапрос" (Self-Ask). Более того, FaR обобщается на разнообразные структуры историй и сценарии, которые также требуют выводов ToM для выбора действия, последовательно превосходя другие методы, включая обучение с несколькими примерами в контексте.
English
"Thinking is for Doing." Humans can infer other people's mental states from
observations--an ability called Theory-of-Mind (ToM)--and subsequently act
pragmatically on those inferences. Existing question answering benchmarks such
as ToMi ask models questions to make inferences about beliefs of characters in
a story, but do not test whether models can then use these inferences to guide
their actions. We propose a new evaluation paradigm for large language models
(LLMs): Thinking for Doing (T4D), which requires models to connect inferences
about others' mental states to actions in social scenarios. Experiments on T4D
demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking
characters' beliefs in stories, but they struggle to translate this capability
into strategic action. Our analysis reveals the core challenge for LLMs lies in
identifying the implicit inferences about mental states without being
explicitly asked about as in ToMi, that lead to choosing the correct action in
T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee
and Reflect (FaR), which provides a reasoning structure that encourages LLMs to
anticipate future challenges and reason about potential actions. FaR boosts
GPT-4's performance from 50% to 71% on T4D, outperforming other prompting
methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to
diverse out-of-distribution story structures and scenarios that also require
ToM inferences to choose an action, consistently outperforming other methods
including few-shot in-context learning.