Hin zu einer dynamischen Theorie des Geistes: Bewertung der Anpassung von LLMs an die zeitliche Entwicklung menschlicher Zustände
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
May 23, 2025
Autoren: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI
Zusammenfassung
Da Large Language Models (LLMs) zunehmend an Mensch-KI-Interaktionen teilnehmen, wird die Bewertung ihrer Theory of Mind (ToM)-Fähigkeiten – insbesondere ihrer Fähigkeit, dynamische mentale Zustände zu verfolgen – entscheidend. Während bestehende Benchmarks grundlegende ToM-Fähigkeiten bewerten, konzentrieren sie sich überwiegend auf statische Momentaufnahmen mentaler Zustände und vernachlässigen die zeitliche Entwicklung, die reale soziale Interaktionen kennzeichnet. Wir stellen DynToM vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, den zeitlichen Verlauf mentaler Zustände in miteinander verbundenen Szenarien zu verstehen und zu verfolgen. Durch einen systematischen Vier-Schritte-Rahmen generieren wir 1.100 soziale Kontexte, die 5.500 Szenarien und 78.100 Fragen umfassen, die jeweils auf Realismus und Qualität validiert wurden. Unsere umfassende Bewertung von zehn state-of-the-art LLMs zeigt, dass ihre durchschnittliche Leistung um 44,7 % unter der von Menschen liegt, wobei die Leistung erheblich abnimmt, wenn es darum geht, den Wandel mentaler Zustände zu verfolgen und darüber zu schlussfolgern. Diese Leistungslücke verdeutlicht grundlegende Einschränkungen in der Fähigkeit aktueller LLMs, die dynamische Natur menschlicher mentaler Zustände zu modellieren.
English
As Large Language Models (LLMs) increasingly participate in human-AI
interactions, evaluating their Theory of Mind (ToM) capabilities - particularly
their ability to track dynamic mental states - becomes crucial. While existing
benchmarks assess basic ToM abilities, they predominantly focus on static
snapshots of mental states, overlooking the temporal evolution that
characterizes real-world social interactions. We present DynToM, a
novel benchmark specifically designed to evaluate LLMs' ability to understand
and track the temporal progression of mental states across interconnected
scenarios. Through a systematic four-step framework, we generate 1,100 social
contexts encompassing 5,500 scenarios and 78,100 questions, each validated for
realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs
reveals that their average performance underperforms humans by 44.7\%, with
performance degrading significantly when tracking and reasoning about the shift
of mental states. This performance gap highlights fundamental limitations in
current LLMs' ability to model the dynamic nature of human mental states.Summary
AI-Generated Summary