ChatPaper.aiChatPaper

Vers une théorie dynamique de l'esprit : Évaluation de l'adaptation des LLM à l'évolution temporelle des états humains

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

May 23, 2025
Auteurs: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI

Résumé

Alors que les modèles de langage de grande taille (LLMs) participent de plus en plus aux interactions humain-IA, l'évaluation de leurs capacités de théorie de l'esprit (ToM) - en particulier leur aptitude à suivre les états mentaux dynamiques - devient cruciale. Bien que les benchmarks existants évaluent les capacités de base en ToM, ils se concentrent principalement sur des instantanés statiques des états mentaux, négligeant l'évolution temporelle qui caractérise les interactions sociales réelles. Nous présentons DynToM, un nouveau benchmark spécifiquement conçu pour évaluer la capacité des LLMs à comprendre et à suivre la progression temporelle des états mentaux à travers des scénarios interconnectés. Grâce à un cadre systématique en quatre étapes, nous générons 1 100 contextes sociaux englobant 5 500 scénarios et 78 100 questions, chacun validé pour son réalisme et sa qualité. Notre évaluation approfondie de dix LLMs de pointe révèle que leur performance moyenne est inférieure de 44,7 % à celle des humains, avec une dégradation significative des performances lors du suivi et du raisonnement sur l'évolution des états mentaux. Cet écart de performance met en lumière des limitations fondamentales dans la capacité des LLMs actuels à modéliser la nature dynamique des états mentaux humains.
English
As Large Language Models (LLMs) increasingly participate in human-AI interactions, evaluating their Theory of Mind (ToM) capabilities - particularly their ability to track dynamic mental states - becomes crucial. While existing benchmarks assess basic ToM abilities, they predominantly focus on static snapshots of mental states, overlooking the temporal evolution that characterizes real-world social interactions. We present DynToM, a novel benchmark specifically designed to evaluate LLMs' ability to understand and track the temporal progression of mental states across interconnected scenarios. Through a systematic four-step framework, we generate 1,100 social contexts encompassing 5,500 scenarios and 78,100 questions, each validated for realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs reveals that their average performance underperforms humans by 44.7\%, with performance degrading significantly when tracking and reasoning about the shift of mental states. This performance gap highlights fundamental limitations in current LLMs' ability to model the dynamic nature of human mental states.

Summary

AI-Generated Summary

PDF142May 29, 2025