MBench: Всесторонний бенчмарк способности к памяти для видеомировых моделей

Аннотация

Недавние достижения в области видео-мировых моделей продемонстрировали беспрецедентную способность синтезировать высококачественные визуальные последовательности. Однако сохраняется фундаментальный разрыв между визуально правдоподобной генерацией видео и функциональными требованиями к мировой модели, особенно в поддержании стабильного и разумного внутреннего состояния на протяжении длительных временных горизонтов. Существующие эталонные тесты в первую очередь оценивают визуальное качество, согласованность движения и соответствие текст-видео, но в значительной степени игнорируют память — ключевую способность мировой модели сохранять согласованность на больших временных интервалах и при сложных взаимодействиях. Для восполнения этого пробела мы представляем MBench — комплексный эталонный тест, предназначенный для количественной оценки и анализа способности к запоминанию у видео-мировых моделей. Мы систематически разлагаем способность к запоминанию видео-мировых моделей на три иерархических и взаимодополняющих базовых измерения: согласованность сущностей, согласованность окружения и причинно-следственную согласованность, которые далее детализируются до 12 измеримых подизмерений для всесторонней характеристики долговременной памяти. Наш эталонный тест построен на тщательно отобранных реальных длинных видеозаписях и оценивается с помощью количественных метрик на основе правил и модели VLM для обеспечения объективной и всесторонней оценки согласованности. Обширная оценка современных передовых видео-мировых моделей выявила критические системные ограничения существующих методов в сохранении долговременного состояния, предоставляя стандартизированный эталонный тест и четкое направление исследований для продвижения данной области.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.