MBench: Un benchmark exhaustivo sobre la capacidad de memoria para modelos de mundo de video

Resumen

Los recientes avances en modelos mundiales basados en video han demostrado una capacidad sin precedentes para sintetizar secuencias visuales de alta fidelidad. Sin embargo, persiste una brecha fundamental entre la generación de video visualmente plausible y los requisitos funcionales de un modelo mundial, particularmente en el mantenimiento de un estado interno estable y razonable durante horizontes temporales extendidos. Si bien los puntos de referencia existentes se centran principalmente en la calidad visual, la coherencia del movimiento y la alineación texto-video, en gran medida pasan por alto la memoria, la capacidad central de un modelo mundial para preservar la consistencia a lo largo de horizontes a largo plazo e interacciones complejas. Para abordar esta brecha, presentamos MBench, un punto de referencia integral dedicado a cuantificar y evaluar la capacidad de memoria de los modelos mundiales de video. Descomponemos sistemáticamente la capacidad de memoria de los modelos mundiales de video en tres dimensiones centrales jerárquicas y complementarias: consistencia de entidades, consistencia del entorno y consistencia causal, que se refinan en 12 subdimensiones cuantificables para una caracterización completa de la memoria a largo plazo. Nuestro punto de referencia se basa en videos reales largos rigurosamente seleccionados, y se evalúa mediante matrices cuantitativas basadas en reglas y un VLM para permitir una evaluación de consistencia objetiva y completa. Evaluaciones exhaustivas de los principales modelos mundiales de video de última generación revelan limitaciones sistémicas críticas de los métodos existentes en la retención de estados a largo plazo, proporcionando un punto de referencia estandarizado y una dirección de investigación clara para avanzar en el campo.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.