MBench : Un référentiel complet sur la capacité de mémoire pour les modèles de monde vidéo

Résumé

Les récentes avancées dans les modèles du monde basés sur la vidéo ont démontré une capacité sans précédent à synthétiser des séquences visuelles haute-fidélité. Cependant, un écart fondamental persiste entre la génération vidéo visuellement plausible et les exigences fonctionnelles d’un modèle du monde, notamment en ce qui concerne le maintien d’un état interne stable et raisonnable sur des horizons temporels étendus. Alors que les référentiels existants mettent principalement l’accent sur la qualité visuelle, la cohérence du mouvement et l’adéquation texte-vidéo, ils négligent largement la mémoire, capacité essentielle d’un modèle du monde à préserver la cohérence sur de longs horizons et des interactions complexes. Pour combler cette lacune, nous présentons MBench, un référentiel complet dédié à la quantification et à l’évaluation de la capacité de mémoire des modèles du monde vidéo. Nous décomposons systématiquement la capacité de mémoire des modèles du monde vidéo en trois dimensions fondamentales hiérarchiques et complémentaires : la cohérence des entités, la cohérence de l’environnement et la cohérence causale, qui sont ensuite affinées en 12 sous-dimensions quantifiables pour caractériser complètement la mémoire à long terme. Notre référentiel s’appuie sur de longues vidéos réelles rigoureusement organisées, et est évalué à l’aide de matrices quantitatives basées sur des règles et d’un VLM afin de permettre une évaluation objective et complète de la cohérence. Des évaluations approfondies des principaux modèles du monde vidéo de pointe révèlent des limitations systémiques critiques des méthodes existantes en matière de maintien de l’état à long terme, fournissant ainsi un référentiel standardisé et une direction de recherche claire pour faire progresser le domaine.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.