Naar een dynamische Theory of Mind: Evaluatie van LLM-aanpassing aan de temporele evolutie van menselijke toestanden

Samenvatting

Naarmate Large Language Models (LLM's) steeds vaker deelnemen aan mens-AI-interacties, wordt het evalueren van hun Theory of Mind (ToM)-capaciteiten – met name hun vermogen om dynamische mentale toestanden te volgen – cruciaal. Hoewel bestaande benchmarks basis-ToM-vaardigheden beoordelen, richten ze zich voornamelijk op statische momentopnames van mentale toestanden, waarbij de temporele evolutie die kenmerkend is voor sociale interacties in de echte wereld over het hoofd wordt gezien. Wij presenteren DynToM, een nieuwe benchmark die specifiek is ontworpen om het vermogen van LLM's te evalueren om de temporele voortgang van mentale toestanden in onderling verbonden scenario's te begrijpen en te volgen. Via een systematisch vierstappenraamwerk genereren we 1.100 sociale contexten die 5.500 scenario's en 78.100 vragen omvatten, elk gevalideerd op realisme en kwaliteit. Onze uitgebreide evaluatie van tien state-of-the-art LLM's toont aan dat hun gemiddelde prestaties 44,7\% onder die van mensen liggen, waarbij de prestaties aanzienlijk verslechteren bij het volgen en redeneren over de verschuiving van mentale toestanden. Deze prestatiekloof benadrukt fundamentele beperkingen in het vermogen van huidige LLM's om de dynamische aard van menselijke mentale toestanden te modelleren.

English

As Large Language Models (LLMs) increasingly participate in human-AI interactions, evaluating their Theory of Mind (ToM) capabilities - particularly their ability to track dynamic mental states - becomes crucial. While existing benchmarks assess basic ToM abilities, they predominantly focus on static snapshots of mental states, overlooking the temporal evolution that characterizes real-world social interactions. We present DynToM, a novel benchmark specifically designed to evaluate LLMs' ability to understand and track the temporal progression of mental states across interconnected scenarios. Through a systematic four-step framework, we generate 1,100 social contexts encompassing 5,500 scenarios and 78,100 questions, each validated for realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs reveals that their average performance underperforms humans by 44.7\%, with performance degrading significantly when tracking and reasoning about the shift of mental states. This performance gap highlights fundamental limitations in current LLMs' ability to model the dynamic nature of human mental states.

Naar een dynamische Theory of Mind: Evaluatie van LLM-aanpassing aan de temporele evolutie van menselijke toestanden

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

Samenvatting

Support