ChatPaper.aiChatPaper

Verso una Teoria della Mente Dinamica: Valutazione dell'Adattamento dei Modelli Linguistici all'Evoluzione Temporale degli Stati Umani

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

May 23, 2025
Autori: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) partecipano sempre più alle interazioni uomo-IA, diventa cruciale valutare le loro capacità di Teoria della Mente (ToM) - in particolare la loro abilità di tracciare stati mentali dinamici. Sebbene i benchmark esistenti valutino le abilità di base della ToM, si concentrano prevalentemente su istantanee statiche degli stati mentali, trascurando l'evoluzione temporale che caratterizza le interazioni sociali nel mondo reale. Presentiamo DynToM, un nuovo benchmark specificamente progettato per valutare la capacità degli LLM di comprendere e tracciare la progressione temporale degli stati mentali attraverso scenari interconnessi. Attraverso un framework sistematico in quattro fasi, generiamo 1.100 contesti sociali che comprendono 5.500 scenari e 78.100 domande, ciascuno validato per realismo e qualità. La nostra valutazione completa di dieci LLM all'avanguardia rivela che la loro prestazione media è inferiore del 44,7% rispetto a quella umana, con un significativo deterioramento delle prestazioni quando si tratta di tracciare e ragionare sul cambiamento degli stati mentali. Questo divario di prestazione evidenzia limitazioni fondamentali nella capacità degli attuali LLM di modellare la natura dinamica degli stati mentali umani.
English
As Large Language Models (LLMs) increasingly participate in human-AI interactions, evaluating their Theory of Mind (ToM) capabilities - particularly their ability to track dynamic mental states - becomes crucial. While existing benchmarks assess basic ToM abilities, they predominantly focus on static snapshots of mental states, overlooking the temporal evolution that characterizes real-world social interactions. We present DynToM, a novel benchmark specifically designed to evaluate LLMs' ability to understand and track the temporal progression of mental states across interconnected scenarios. Through a systematic four-step framework, we generate 1,100 social contexts encompassing 5,500 scenarios and 78,100 questions, each validated for realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs reveals that their average performance underperforms humans by 44.7\%, with performance degrading significantly when tracking and reasoning about the shift of mental states. This performance gap highlights fundamental limitations in current LLMs' ability to model the dynamic nature of human mental states.
PDF152May 29, 2025