MIND: Оценка согласованности памяти и управления действиями в мировых моделях
MIND: Benchmarking Memory Consistency and Action Control in World Models
February 8, 2026
Авторы: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI
Аннотация
Модели мира ставят целью понимание, запоминание и прогнозирование динамических визуальных сред, однако единый эталон для оценки их фундаментальных способностей до сих пор отсутствует. Чтобы восполнить этот пробел, мы представляем MIND — первый открытый повторно посещаемый бенчмарк с замкнутым циклом для оценки памяти и согласованности действий в моделях мира. MIND содержит 250 высококачественных видео в разрешении 1080p и 24 кадра/с, включая 100 (от первого лица) + 100 (от третьего лица) видеоклипов в едином пространстве действий, а также 25 + 25 клипов в различных пространствах действий, охватывающих восемь разнообразных сцен. Мы разработали эффективную систему оценки для измерения двух ключевых способностей: согласованности памяти и управления действиями, отражающих временную стабильность и контекстуальную согласованность между точками обзора. Кроме того, мы предусмотрели различные пространства действий, включая разные скорости перемещения персонажей и углы поворота камеры, чтобы оценить способность к обобщению действий в разных пространствах при общих сценах. Для облегчения будущего сравнительного анализа производительности на MIND мы представляем MIND-World — новую интерактивную базовую модель Video-to-World. Многочисленные эксперименты демонстрируют полноту MIND и выявляют ключевые проблемы современных моделей мира, включая сложность поддержания долгосрочной согласованности памяти и обобщения между пространствами действий. Страница проекта: https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/