DecMem : Vers la génération cohérente de mondes d'une minute avec mémoire découplée

Résumé

Les récents progrès des modèles génératifs vidéo ont favorisé des avancées rapides dans les modèles de monde contrôlables. Cependant, maintenir une cohérence spatio-temporelle fine dans un raisonnement à long terme reste un défi majeur. Dans ce travail, nous dépassons la mémoire 3D explicite et la modélisation implicite grossière au niveau des trames, et proposons une mémoire fine, apprenable et évolutive pour une génération cohérente de mondes. Nous identifions d'abord deux limitations fondamentales des architectures de mémoire apprenable naïves dans l'extrapolation à long terme, à savoir l'inefficacité computationnelle et la dispersion de l'attention. Grâce à une analyse systématique de la dispersion de l'attention, nous proposons DecMem, une architecture de mémoire découplée qui utilise une Mémoire Globale Éparse pour un accès fin et efficace à l'historique global, et une Mémoire Locale Ancrée pour une extrapolation stable et de haute qualité. Des expériences approfondies montrent que DecMem surpasse significativement les méthodes actuelles de l'état de l'art. En assurant une mémoire à long terme précise et efficace et en offrant des capacités d'extrapolation supérieures, DecMem permet la génération contrôlable de longues vidéos à l'échelle de la minute avec une haute fidélité et une grande cohérence.

English

Recent advances in video generative models have promoted rapid progress in controllable world models. However, maintaining fine-grained spatio-temporal consistency under long-horizon reasoning remains a key challenge. In this work, we move beyond explicit 3D memory and coarse frame-level implicit modeling, and propose a fine-grained, learnable, and scalable memory for consistent world generation. We first identify two fundamental limitations of naïve learnable memory architectures in long-horizon extrapolation, namely computational inefficiency and attention dispersion. Through a systematic analysis of attention dispersion, we propose DecMem, a decoupled memory architecture that employs Sparse Global Memory for efficient fine-grained access to global history and Anchored Local Memory for stable and high-quality extrapolation. Extensive experiments demonstrate that DecMem significantly outperforms current state-of-the-art methods. By ensuring precise and efficient long-term memory and achieving superior extrapolation capabilities, DecMem enables minute-level controllable long video generation with high fidelity and consistency.