LLM(대형 언어 모델)은 고차원적 마음 이론 작업에서 성인 인간 수준의 성능을 달성합니다.
LLMs achieve adult human performance on higher-order theory of mind tasks
May 29, 2024
저자: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI
초록
본 논문은 대규모 언어 모델(LLM)이 고차원적 마음 이론(Theory of Mind, ToM), 즉 인간이 여러 정신적·감정적 상태를 재귀적으로 추론하는 능력(예: 나는 네가 그녀가 알고 있다고 믿는다고 생각한다)을 어느 정도까지 발전시켰는지를 검토한다. 이 연구는 기존 연구를 바탕으로, 손으로 작성한 테스트 세트인 '다차원 마음 이론 Q&A(Multi-Order Theory of Mind Q&A)'를 도입하고 이를 사용하여 다섯 가지 LLM의 성능을 새로 수집한 성인 기준과 비교한다. 연구 결과, GPT-4와 Flan-PaLM은 전반적인 ToM 과제에서 성인 수준 또는 성인에 근접한 성능을 보였으며, GPT-4는 6차 추론에서 성인 성능을 초과했다. 이 결과는 ToM 능력의 실현에 있어 모델 크기와 미세 조정 간의 상호작용이 있음을 시사하며, 최고 성능의 LLM이 일반화된 ToM 능력을 발전시켰음을 보여준다. 고차원적 ToM이 다양한 협력적·경쟁적 인간 행동에서 중요한 역할을 한다는 점을 고려할 때, 이러한 발견은 사용자 중심 LLM 애플리케이션에 중요한 시사점을 제공한다.
English
This paper examines the extent to which large language models (LLMs) have
developed higher-order theory of mind (ToM); the human ability to reason about
multiple mental and emotional states in a recursive manner (e.g. I think that
you believe that she knows). This paper builds on prior work by introducing a
handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to
compare the performance of five LLMs to a newly gathered adult human benchmark.
We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level
performance on ToM tasks overall, and that GPT-4 exceeds adult performance on
6th order inferences. Our results suggest that there is an interplay between
model size and finetuning for the realisation of ToM abilities, and that the
best-performing LLMs have developed a generalised capacity for ToM. Given the
role that higher-order ToM plays in a wide range of cooperative and competitive
human behaviours, these findings have significant implications for user-facing
LLM applications.Summary
AI-Generated Summary