MIND: 世界モデルにおけるメモリ一貫性と行動制御のベンチマーク
MIND: Benchmarking Memory Consistency and Action Control in World Models
February 8, 2026
著者: Yixuan Ye, Xuanyu Lu, Yuxin Jiang, Yuchao Gu, Rui Zhao, Qiwei Liang, Jiachun Pan, Fengda Zhang, Weijia Wu, Alex Jinpeng Wang
cs.AI
要旨
ワールドモデルは、動的な視覚環境を理解・記憶・予測することを目指すが、その基礎能力を評価する統一ベンチマークは未だ不足している。この課題を解決するため、我々はワールドモデルの記憶一貫性と行動制御を評価する初のオープンドメイン閉ループ再訪型ベンチマーク「MIND」を提案する。MINDは1080p・24fpsの高品質動画250本を包含し、共通の行動空間下における100本(一人称)+100本(三人称)の映像クリップと、8つの多様なシーンに跨る異なる行動空間下での25+25本のクリップで構成される。本ベンチマークでは、時間的安定性と視点間の文脈的一貫性を捉えるため、記憶一貫性と行動制御という二つの核心能力を測定する効率的な評価フレームワークを設計した。さらに、異なる移動速度やカメラ回転角度を含む多様な行動空間を設計し、共通シーン下での行動空間跨ぎの一般化能力を評価する。今後の性能比較を促進するため、新たなインタラクティブなVideo-to-Worldベースライン「MIND-World」を導入した。大規模実験によりMINDの網羅性が実証され、長期記憶一貫性の維持や行動空間跨ぎの一般化といった現行ワールドモデルの重要課題が明らかとなった。プロジェクトページ: https://csu-jpg.github.io/MIND.github.io/
English
World models aim to understand, remember, and predict dynamic visual environments, yet a unified benchmark for evaluating their fundamental abilities remains lacking. To address this gap, we introduce MIND, the first open-domain closed-loop revisited benchmark for evaluating Memory consIstency and action coNtrol in worlD models. MIND contains 250 high-quality videos at 1080p and 24 FPS, including 100 (first-person) + 100 (third-person) video clips under a shared action space and 25 + 25 clips across varied action spaces covering eight diverse scenes. We design an efficient evaluation framework to measure two core abilities: memory consistency and action control, capturing temporal stability and contextual coherence across viewpoints. Furthermore, we design various action spaces, including different character movement speeds and camera rotation angles, to evaluate the action generalization capability across different action spaces under shared scenes. To facilitate future performance benchmarking on MIND, we introduce MIND-World, a novel interactive Video-to-World baseline. Extensive experiments demonstrate the completeness of MIND and reveal key challenges in current world models, including the difficulty of maintaining long-term memory consistency and generalizing across action spaces. Project page: https://csu-jpg.github.io/MIND.github.io/