ChatPaper.aiChatPaper

LLM's bereiken volwassen menselijke prestaties op hogere-orde theory of mind-taken.

LLMs achieve adult human performance on higher-order theory of mind tasks

May 29, 2024
Auteurs: Winnie Street, John Oliver Siy, Geoff Keeling, Adrien Baranes, Benjamin Barnett, Michael McKibben, Tatenda Kanyere, Alison Lentz, Blaise Aguera y Arcas, Robin I. M. Dunbar
cs.AI

Samenvatting

Dit artikel onderzoekt in hoeverre grote taalmodellen (LLM's) een hogere-orde theory of mind (ToM) hebben ontwikkeld; het menselijk vermogen om op een recursieve manier te redeneren over meerdere mentale en emotionele toestanden (bijv. ik denk dat jij gelooft dat zij weet). Dit artikel bouwt voort op eerder onderzoek door een handgeschreven testset te introduceren -- Multi-Order Theory of Mind Q&A -- en deze te gebruiken om de prestaties van vijf LLM's te vergelijken met een nieuw verzamelde benchmark van volwassenen. We constateren dat GPT-4 en Flan-PaLM over het algemeen prestaties op volwassen niveau en bijna volwassen niveau bereiken op ToM-taken, en dat GPT-4 de prestaties van volwassenen overtreft bij inferenties van de zesde orde. Onze resultaten suggereren dat er een wisselwerking bestaat tussen modelgrootte en finetuning voor het realiseren van ToM-vaardigheden, en dat de best presterende LLM's een gegeneraliseerd vermogen voor ToM hebben ontwikkeld. Gezien de rol die hogere-orde ToM speelt in een breed scala aan coöperatieve en competitieve menselijke gedragingen, hebben deze bevindingen significante implicaties voor gebruikersgerichte LLM-toepassingen.
English
This paper examines the extent to which large language models (LLMs) have developed higher-order theory of mind (ToM); the human ability to reason about multiple mental and emotional states in a recursive manner (e.g. I think that you believe that she knows). This paper builds on prior work by introducing a handwritten test suite -- Multi-Order Theory of Mind Q&A -- and using it to compare the performance of five LLMs to a newly gathered adult human benchmark. We find that GPT-4 and Flan-PaLM reach adult-level and near adult-level performance on ToM tasks overall, and that GPT-4 exceeds adult performance on 6th order inferences. Our results suggest that there is an interplay between model size and finetuning for the realisation of ToM abilities, and that the best-performing LLMs have developed a generalised capacity for ToM. Given the role that higher-order ToM plays in a wide range of cooperative and competitive human behaviours, these findings have significant implications for user-facing LLM applications.
PDF177February 8, 2026