MBench: Ein umfassender Benchmark zur Gedächtnisfähigkeit von Video-Weltmodellen

Zusammenfassung

Jüngste Fortschritte bei videobasierten Weltmodellen haben eine beispiellose Fähigkeit zur Synthese hochtreuer visueller Sequenzen gezeigt. Dennoch besteht weiterhin eine grundlegende Diskrepanz zwischen visuell plausibler Videogenerierung und den funktionalen Anforderungen eines Weltmodells, insbesondere bei der Aufrechterhaltung eines stabilen und vernünftigen internen Zustands über längere zeitliche Horizonte hinweg. Während bestehende Bewertungsmaßstäbe vor allem die visuelle Qualität, Bewegungskohärenz und Text-Video-Abstimmung betonen, vernachlässigen sie weitgehend das Gedächtnis – die Kernfähigkeit eines Weltmodells, Konsistenz über langfristige Horizonte und komplexe Interaktionen hinweg zu bewahren. Um diese Lücke zu schließen, stellen wir MBench vor, einen umfassenden Bewertungsmaßstab, der sich der Quantifizierung und Bewertung der Gedächtnisfähigkeit von Video-Weltmodellen widmet. Wir zerlegen die Gedächtnisfähigkeit von Video-Weltmodellen systematisch in drei hierarchische und komplementäre Kerndimensionen: Entitätskonsistenz, Umgebungskonsistenz und kausale Konsistenz, die zur umfassenden Charakterisierung des Langzeitgedächtnisses weiter in zwölf quantifizierbare Unterdimensionen ausdifferenziert werden. Unser Bewertungsmaßstab basiert auf sorgfältig kuratierten, real aufgenommenen langen Videos und wird durch regelbasierte quantitative Matrizen sowie ein VLM (Vision-Language-Modell) bewertet, um eine objektive und umfassende Konsistenzbewertung zu ermöglichen. Umfangreiche Evaluierungen gängiger modernster Video-Weltmodelle decken kritische systemische Einschränkungen bestehender Methoden bei der langfristigen Zustandserhaltung auf und bieten einen standardisierten Bewertungsmaßstab sowie eine klare Forschungsrichtung zur Weiterentwicklung des Fachgebiets.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.