Naar een dynamische Theory of Mind: Evaluatie van LLM-aanpassing aan de temporele evolutie van menselijke toestanden
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
May 23, 2025
Auteurs: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI
Samenvatting
Naarmate Large Language Models (LLM's) steeds vaker deelnemen aan mens-AI-interacties, wordt het evalueren van hun Theory of Mind (ToM)-capaciteiten – met name hun vermogen om dynamische mentale toestanden te volgen – cruciaal. Hoewel bestaande benchmarks basis-ToM-vaardigheden beoordelen, richten ze zich voornamelijk op statische momentopnames van mentale toestanden, waarbij de temporele evolutie die kenmerkend is voor sociale interacties in de echte wereld over het hoofd wordt gezien. Wij presenteren DynToM, een nieuwe benchmark die specifiek is ontworpen om het vermogen van LLM's te evalueren om de temporele voortgang van mentale toestanden in onderling verbonden scenario's te begrijpen en te volgen. Via een systematisch vierstappenraamwerk genereren we 1.100 sociale contexten die 5.500 scenario's en 78.100 vragen omvatten, elk gevalideerd op realisme en kwaliteit. Onze uitgebreide evaluatie van tien state-of-the-art LLM's toont aan dat hun gemiddelde prestaties 44,7\% onder die van mensen liggen, waarbij de prestaties aanzienlijk verslechteren bij het volgen en redeneren over de verschuiving van mentale toestanden. Deze prestatiekloof benadrukt fundamentele beperkingen in het vermogen van huidige LLM's om de dynamische aard van menselijke mentale toestanden te modelleren.
English
As Large Language Models (LLMs) increasingly participate in human-AI
interactions, evaluating their Theory of Mind (ToM) capabilities - particularly
their ability to track dynamic mental states - becomes crucial. While existing
benchmarks assess basic ToM abilities, they predominantly focus on static
snapshots of mental states, overlooking the temporal evolution that
characterizes real-world social interactions. We present DynToM, a
novel benchmark specifically designed to evaluate LLMs' ability to understand
and track the temporal progression of mental states across interconnected
scenarios. Through a systematic four-step framework, we generate 1,100 social
contexts encompassing 5,500 scenarios and 78,100 questions, each validated for
realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs
reveals that their average performance underperforms humans by 44.7\%, with
performance degrading significantly when tracking and reasoning about the shift
of mental states. This performance gap highlights fundamental limitations in
current LLMs' ability to model the dynamic nature of human mental states.