DecMem: Hacia la Generación de Mundos Consistentes de Minutos de Duración con Memoria Desacoplada

Resumen

Los recientes avances en modelos generativos de video han impulsado un progreso rápido en los modelos del mundo controlables. Sin embargo, mantener una consistencia espacio-temporal detallada bajo razonamiento a largo plazo sigue siendo un desafío clave. En este trabajo, superamos la memoria 3D explícita y el modelado implícito grueso a nivel de fotogramas, y proponemos una memoria aprendible, detallada y escalable para la generación consistente del mundo. Primero identificamos dos limitaciones fundamentales de las arquitecturas de memoria aprendible ingenuas en la extrapolación a largo plazo: la ineficiencia computacional y la dispersión de la atención. Mediante un análisis sistemático de la dispersión de la atención, proponemos DecMem, una arquitectura de memoria desacoplada que emplea Memoria Global Dispersa para un acceso detallado y eficiente al historial global, y Memoria Local Anclada para una extrapolación estable y de alta calidad. Experimentos exhaustivos demuestran que DecMem supera significativamente a los métodos actuales de última generación. Al garantizar una memoria a largo plazo precisa y eficiente y lograr capacidades de extrapolación superiores, DecMem permite la generación de videos largos controlables a nivel de minutos con alta fidelidad y consistencia.

English

Recent advances in video generative models have promoted rapid progress in controllable world models. However, maintaining fine-grained spatio-temporal consistency under long-horizon reasoning remains a key challenge. In this work, we move beyond explicit 3D memory and coarse frame-level implicit modeling, and propose a fine-grained, learnable, and scalable memory for consistent world generation. We first identify two fundamental limitations of naïve learnable memory architectures in long-horizon extrapolation, namely computational inefficiency and attention dispersion. Through a systematic analysis of attention dispersion, we propose DecMem, a decoupled memory architecture that employs Sparse Global Memory for efficient fine-grained access to global history and Anchored Local Memory for stable and high-quality extrapolation. Extensive experiments demonstrate that DecMem significantly outperforms current state-of-the-art methods. By ensuring precise and efficient long-term memory and achieving superior extrapolation capabilities, DecMem enables minute-level controllable long video generation with high fidelity and consistency.