ChatPaper.aiChatPaper

Hacia una Teoría de la Mente Dinámica: Evaluando la Adaptación de los Modelos de Lenguaje a la Evolución Temporal de los Estados Humanos

Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

May 23, 2025
Autores: Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu
cs.AI

Resumen

A medida que los Modelos de Lenguaje de Gran Escala (LLMs) participan cada vez más en interacciones humano-IA, evaluar sus capacidades de Teoría de la Mente (ToM) —especialmente su habilidad para rastrear estados mentales dinámicos— se vuelve crucial. Si bien los puntos de referencia existentes evalúan habilidades básicas de ToM, se centran predominantemente en instantáneas estáticas de estados mentales, pasando por alto la evolución temporal que caracteriza las interacciones sociales del mundo real. Presentamos DynToM, un nuevo punto de referencia diseñado específicamente para evaluar la capacidad de los LLMs para comprender y rastrear la progresión temporal de los estados mentales en escenarios interconectados. A través de un marco sistemático de cuatro pasos, generamos 1,100 contextos sociales que abarcan 5,500 escenarios y 78,100 preguntas, cada una validada por su realismo y calidad. Nuestra evaluación exhaustiva de diez LLMs de vanguardia revela que su rendimiento promedio es un 44.7\% inferior al de los humanos, con un deterioro significativo del rendimiento al rastrear y razonar sobre el cambio de estados mentales. Esta brecha de rendimiento resalta limitaciones fundamentales en la capacidad de los LLMs actuales para modelar la naturaleza dinámica de los estados mentales humanos.
English
As Large Language Models (LLMs) increasingly participate in human-AI interactions, evaluating their Theory of Mind (ToM) capabilities - particularly their ability to track dynamic mental states - becomes crucial. While existing benchmarks assess basic ToM abilities, they predominantly focus on static snapshots of mental states, overlooking the temporal evolution that characterizes real-world social interactions. We present DynToM, a novel benchmark specifically designed to evaluate LLMs' ability to understand and track the temporal progression of mental states across interconnected scenarios. Through a systematic four-step framework, we generate 1,100 social contexts encompassing 5,500 scenarios and 78,100 questions, each validated for realism and quality. Our comprehensive evaluation of ten state-of-the-art LLMs reveals that their average performance underperforms humans by 44.7\%, with performance degrading significantly when tracking and reasoning about the shift of mental states. This performance gap highlights fundamental limitations in current LLMs' ability to model the dynamic nature of human mental states.

Summary

AI-Generated Summary

PDF142May 29, 2025