ChatPaper.aiChatPaper

MBench: ビデオ世界モデルの記憶能力に関する包括的ベンチマーク

MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

June 8, 2026
著者: Shengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan
cs.AI

要旨

ビデオベースの世界モデルにおける最近の進展は、高忠実度な視覚シーケンスを合成する前例のない能力を示している。しかし、視覚的に妥当なビデオ生成と世界モデルの機能的要件との間には、特に長時間の時間スパンにわたって安定かつ合理的な内部状態を維持するという点で、根本的なギャップが依然として存在する。既存のベンチマークは主に視覚品質、動作の一貫性、テキストとビデオの整合性に重点を置いているが、世界モデルが長期的な時間スパンや複雑な相互作用にわたって一貫性を保持する中核的能力である記憶(メモリ)をほとんど無視している。このギャップに対処するため、我々はMBenchを提案する。これはビデオ世界モデルの記憶能力を定量化・評価するための包括的なベンチマークである。我々はビデオ世界モデルの記憶能力を、エンティティ一貫性、環境一貫性、因果一貫性という3つの階層的かつ補完的な中核次元に体系的に分解し、さらに長期記憶の包括的特徴付けのために12の定量化可能なサブ次元に細分化する。本ベンチマークは厳密にキュレーションされた実写長編ビデオに基づいて構築され、ルールベースの定量評価行列とVLMにより評価されることで、客観的かつ包括的な一貫性評価を可能とする。最先端の主流ビデオ世界モデルに対する広範な評価は、長期状態保持における既存手法の重大なシステム的限界を明らかにし、この分野を前進させるための標準化されたベンチマークと明確な研究方向を提供する。
English
Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.