MIND : Évaluation de la Cohérence Mnésique et du Contrôle de l'Action dans les Modèles du Monde
MIND: Benchmarking Memory Consistency and Action Control in World Models
February 8, 2026
papers.authors: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI
papers.abstract
Les modèles de monde visent à comprendre, mémoriser et prédire des environnements visuels dynamiques, mais il manque encore un benchmark unifié pour évaluer leurs capacités fondamentales. Pour combler cette lacune, nous présentons MIND, le premier benchmark de revisite en boucle fermée en domaine ouvert pour évaluer la cohérence mémorielle (Memory consIstency) et le contrôle d'action (action coNtrol) dans les modèles de monde. MIND contient 250 vidéos haute qualité en 1080p et 24 FPS, incluant 100 clips vidéo (première personne) + 100 (troisième personne) sous un espace d'action partagé et 25 + 25 clips couvrant des espaces d'action variés dans huit scènes diversifiées. Nous concevons un cadre d'évaluation efficace pour mesurer deux capacités fondamentales : la cohérence mémorielle et le contrôle d'action, captant la stabilité temporelle et la cohérence contextuelle entre les points de vue. De plus, nous concevons divers espaces d'action, incluant différentes vitesses de déplacement des personnages et angles de rotation de caméra, pour évaluer la capacité de généralisation d'action entre différents espaces d'action sous des scènes partagées. Pour faciliter l'évaluation future des performances sur MIND, nous introduisons MIND-World, une nouvelle baseline interactive Vidéo-vers-Monde. Des expériences approfondies démontrent l'exhaustivité de MIND et révèlent des défis clés dans les modèles de monde actuels, incluant la difficulté de maintenir une cohérence mémorielle à long terme et de généraliser entre les espaces d'action. Page du projet : https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/