Rumo a uma Teoria da Mente Dinâmica: Avaliando a Adaptação de LLMs à Evolução Temporal dos Estados Humanos
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States
May 23, 2025
Autores: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) participam cada vez mais das interações humano-IA, a avaliação de suas capacidades de Teoria da Mente (ToM) – particularmente sua habilidade de rastrear estados mentais dinâmicos – torna-se crucial. Embora os benchmarks existentes avaliem habilidades básicas de ToM, eles se concentram predominantemente em instantâneos estáticos de estados mentais, negligenciando a evolução temporal que caracteriza as interações sociais do mundo real. Apresentamos o DynToM, um benchmark inovador projetado especificamente para avaliar a capacidade dos LLMs de compreender e rastrear a progressão temporal dos estados mentais em cenários interconectados. Por meio de uma estrutura sistemática de quatro etapas, geramos 1.100 contextos sociais que abrangem 5.500 cenários e 78.100 perguntas, cada uma validada quanto ao realismo e qualidade. Nossa avaliação abrangente de dez LLMs state-of-the-art revela que seu desempenho médio fica 44,7% abaixo do humano, com o desempenho degradando-se significativamente ao rastrear e raciocinar sobre a mudança de estados mentais. Essa lacuna de desempenho destaca limitações fundamentais na capacidade dos LLMs atuais de modelar a natureza dinâmica dos estados mentais humanos.
English
As Large Language Models (LLMs) increasingly participate in human-AI
interactions, evaluating their Theory of Mind (ToM) capabilities - particularly
their ability to track dynamic mental states - becomes crucial. While existing
benchmarks assess basic ToM abilities, they predominantly focus on static
snapshots of mental states, overlooking the temporal evolution that
characterizes real-world social interactions. We present DynToM, a
novel benchmark specifically designed to evaluate LLMs' ability to understand
and track the temporal progression of mental states across interconnected
scenarios. Through a systematic four-step framework, we generate 1,100 social
contexts encompassing 5,500 scenarios and 78,100 questions, each validated for
realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs
reveals that their average performance underperforms humans by 44.7\%, with
performance degrading significantly when tracking and reasoning about the shift
of mental states. This performance gap highlights fundamental limitations in
current LLMs' ability to model the dynamic nature of human mental states.