MIND: Benchmarking von Gedächtniskonsistenz und Handlungskontrolle in Weltmodellen
MIND: Benchmarking Memory Consistency and Action Control in World Models
February 8, 2026
papers.authors: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI
papers.abstract
World Models zielen darauf ab, dynamische visuelle Umgebungen zu verstehen, zu speichern und vorherzusagen, dennoch fehlt es an einem einheitlichen Benchmark für die Bewertung ihrer grundlegenden Fähigkeiten. Um diese Lücke zu schließen, stellen wir MIND vor, den ersten open-domain closed-loop revisited Benchmark zur Bewertung von Memory consIstency und action coNtrol in worlD models. MIND umfasst 250 hochwertige Videos in 1080p und 24 FPS, darunter 100 (Egoperspektive) + 100 (Third-Person) Videoclips unter einem gemeinsamen Aktionsraum sowie 25 + 25 Clips über verschiedene Aktionsräume hinweg, die acht diverse Szenen abdecken. Wir entwerfen ein effizientes Evaluierungsframework, um zwei Kernfähigkeiten zu messen: Gedächtniskonsistenz und Aktionskontrolle, die zeitliche Stabilität und kontextuelle Kohärenz über Blickwinkel hinweg erfassen. Darüber hinaus gestalten wir verschiedene Aktionsräume, einschließlich unterschiedlicher Charakterbewegungsgeschwindigkeiten und Kamerarotationswinkel, um die Aktionsgeneralisierungsfähigkeit über verschiedene Aktionsräume unter gemeinsamen Szenen hinweg zu bewerten. Um zukünftige Leistungsvergleiche auf MIND zu erleichtern, führen wir MIND-World ein, eine neuartige interaktive Video-to-World-Baseline. Umfangreiche Experimente demonstrieren die Vollständigkeit von MIND und zeigen zentrale Herausforderungen aktueller World Models auf, darunter die Schwierigkeit, langfristige Gedächtniskonsistenz aufrechtzuerhalten und über Aktionsräume hinweg zu generalisieren. Projektseite: https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/