К динамической теории сознания: оценка адаптации языковых моделей к временной эволюции состояний человека
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
May 23, 2025
Авторы: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) всё активнее участвуют во взаимодействиях между человеком и ИИ, оценка их способностей к теории сознания (ToM) — особенно их умения отслеживать динамические ментальные состояния — становится крайне важной. Хотя существующие тесты оценивают базовые способности ToM, они в основном сосредоточены на статичных снимках ментальных состояний, упуская из виду временную эволюцию, которая характерна для реальных социальных взаимодействий. Мы представляем DynToM, новый тест, специально разработанный для оценки способности LLM понимать и отслеживать временное развитие ментальных состояний в связанных сценариях. С помощью систематической четырёхэтапной структуры мы создали 1 100 социальных контекстов, включающих 5 500 сценариев и 78 100 вопросов, каждый из которых проверен на реалистичность и качество. Наше всестороннее тестирование десяти современных LLM показывает, что их средняя производительность отстаёт от человеческой на 44,7 %, причём производительность значительно снижается при отслеживании и анализе изменений ментальных состояний. Этот разрыв в производительности подчеркивает фундаментальные ограничения современных LLM в моделировании динамической природы человеческих ментальных состояний.
English
As Large Language Models (LLMs) increasingly participate in human-AI
interactions, evaluating their Theory of Mind (ToM) capabilities - particularly
their ability to track dynamic mental states - becomes crucial. While existing
benchmarks assess basic ToM abilities, they predominantly focus on static
snapshots of mental states, overlooking the temporal evolution that
characterizes real-world social interactions. We present DynToM, a
novel benchmark specifically designed to evaluate LLMs' ability to understand
and track the temporal progression of mental states across interconnected
scenarios. Through a systematic four-step framework, we generate 1,100 social
contexts encompassing 5,500 scenarios and 78,100 questions, each validated for
realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs
reveals that their average performance underperforms humans by 44.7\%, with
performance degrading significantly when tracking and reasoning about the shift
of mental states. This performance gap highlights fundamental limitations in
current LLMs' ability to model the dynamic nature of human mental states.Summary
AI-Generated Summary