MBench: Um Benchmark Abrangente sobre Capacidade de Memória para Modelos de Mundo de Vídeo

Resumo

Avanços recentes em modelos de mundo baseados em vídeo demonstraram uma capacidade sem precedentes de sintetizar sequências visuais de alta fidelidade. No entanto, persiste uma lacuna fundamental entre a geração de vídeos visualmente plausíveis e os requisitos funcionais de um modelo de mundo, particularmente na manutenção de um estado interno estável e razoável ao longo de horizontes temporais estendidos. Embora os benchmarks existentes enfatizem principalmente a qualidade visual, a coerência de movimento e o alinhamento texto-vídeo, eles negligenciam em grande parte a memória, a capacidade central de um modelo de mundo de preservar a consistência em horizontes de longo prazo e interações complexas. Para abordar essa lacuna, apresentamos o MBench, um benchmark abrangente dedicado a quantificar e avaliar a capacidade de memória de modelos de mundo em vídeo. Decompoemos sistematicamente a capacidade de memória dos modelos de mundo em vídeo em três dimensões centrais hierárquicas e complementares: consistência de entidade, consistência de ambiente e consistência causal, que são ainda refinadas em 12 subdimensões quantificáveis para uma caracterização abrangente da memória de longo prazo. Nosso benchmark é construído a partir de vídeos longos reais rigorosamente selecionados e avaliado por matrizes quantitativas baseadas em regras e VLM para permitir uma avaliação de consistência objetiva e abrangente. Avaliações extensivas dos principais modelos de mundo em vídeo do estado da arte revelam limitações sistêmicas críticas dos métodos existentes na retenção de estado de longo prazo, fornecendo um benchmark padronizado e uma direção de pesquisa clara para avançar o campo.

English

Recent advancements in video-based world models have demonstrated an unprecedented ability to synthesize high-fidelity visual sequences. However, a fundamental gap persists between visually plausible video generation and the functional requirements of a world model, particularly in maintaining a stable and reasonable internal state over extended temporal horizons. While existing benchmarks primarily emphasize visual quality, motion coherence, and text-video alignment, they largely overlook memory, the core capability of a world model to preserve consistency across long-term horizons and complex interactions. To address this gap, we present MBench, a comprehensive benchmark dedicated to quantifying and evaluating the memory capability of video world models. We systematically decompose the memory capability of video world models into three hierarchical and complementary core dimensions: entity consistency, environment consistency, and causal consistency, which are further refined into 12 quantifiable sub-dimensions for comprehensive characterization of long-term memory. Our benchmark is built upon rigorously curated real-captured long videos, and evaluated by rule-based quantitative matrices and VLM to enable objective and comprehensive consistency assessment. Extensive evaluations of mainstream state-of-the-art video world models reveal critical systemic limitations of existing methods in long-term state retention, providing a standardized benchmark and clear research direction to advance the field.