ChatPaper.aiChatPaper

MIND: Evaluación de la Consistencia de Memoria y el Control de Acciones en Modelos del Mundo

MIND: Benchmarking Memory Consistency and Action Control in World Models

February 8, 2026
Autores: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI

Resumen

Los modelos de mundo buscan comprender, recordar y predecir entornos visuales dinámicos, sin embargo, aún falta un punto de referencia unificado para evaluar sus capacidades fundamentales. Para abordar esta carencia, presentamos MIND, el primer benchmark de dominio abierto, de bucle cerrado y revisitado para evaluar la consistencia de la memoria y el control de acciones en modelos de mundo. MIND contiene 250 videos de alta calidad a 1080p y 24 FPS, incluyendo 100 clips de video en primera persona + 100 en tercera persona bajo un espacio de acción compartido, y 25 + 25 clips a través de espacios de acción variados que cubren ocho escenas diversas. Diseñamos un marco de evaluación eficiente para medir dos capacidades centrales: la consistencia de la memoria y el control de acciones, capturando la estabilidad temporal y la coherencia contextual entre distintos puntos de vista. Además, diseñamos varios espacios de acción, incluyendo diferentes velocidades de movimiento del personaje y ángulos de rotación de cámara, para evaluar la capacidad de generalización de acciones a través de diferentes espacios de acción bajo escenas compartidas. Para facilitar la evaluación comparativa futura en MIND, presentamos MIND-World, una nueva línea de base interactiva de Video-a-Mundo. Experimentos exhaustivos demuestran la integridad de MIND y revelan desafíos clave en los modelos de mundo actuales, incluyendo la dificultad de mantener la consistencia de la memoria a largo plazo y de generalizar entre espacios de acción. Página del proyecto: https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/
PDF81February 12, 2026