MBench: Een uitgebreide benchmark over geheugencapaciteit voor videowereldmodellen

Samenvatting

Recente vooruitgang in videogebaseerde wereldmodellen heeft een ongekend vermogen getoond om visuele sequenties van hoge kwaliteit te synthetiseren. Er blijft echter een fundamentele kloof bestaan tussen visueel plausibele videogeneratie en de functionele vereisten van een wereldmodel, met name wat betreft het handhaven van een stabiele en redelijke interne toestand over langere tijdsperioden. Hoewel bestaande benchmarks zich voornamelijk richten op visuele kwaliteit, bewegingscoherentie en tekst-video-afstemming, negeren ze grotendeels het geheugen, de kerncapaciteit van een wereldmodel om consistentie te behouden over lange termijnhorizonten en complexe interacties. Om deze kloof te overbruggen, presenteren we MBench, een uitgebreide benchmark die is gewijd aan het kwantificeren en evalueren van de geheugencapaciteit van videowereldmodellen. We ontleden de geheugencapaciteit van videowereldmodellen systematisch in drie hiërarchische en complementaire kerndimensies: entiteitsconsistentie, omgevingsconsistentie en causale consistentie, die verder worden verfijnd tot 12 kwantificeerbare subdimensies voor een uitgebreide karakterisering van het langetermijngeheugen. Onze benchmark is gebaseerd op zorgvuldig samengestelde, echt opgenomen lange video's en wordt geëvalueerd met behulp van regelgebaseerde kwantitatieve matrices en VLM om een objectieve en uitgebreide consistentiebeoordeling mogelijk te maken. Uitgebreide evaluaties van gangbare state-of-the-art videowereldmodellen onthullen kritieke systeembeperkingen van bestaande methoden bij het behouden van de toestand op lange termijn, wat een gestandaardiseerde benchmark en een duidelijke onderzoeksrichting biedt om het veld vooruit te helpen.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.