DecMem: Naar Minuutlange Consistente Wereldgeneratie met Ontkoppeld Geheugen

Samenvatting

Recente vooruitgang in videogeneratieve modellen heeft geleid tot snelle vooruitgang in controleerbare wereldmodellen. Het handhaven van fijnkorrelige spatiotemporele consistentie onder langetermijnredenering blijft echter een belangrijke uitdaging. In dit werk gaan we verder dan expliciet 3D-geheugen en grove, op frameniveau gebaseerde impliciete modellering, en stellen we een fijnkorrelig, leerbaar en schaalbaar geheugen voor voor consistente wereldgeneratie. We identificeren eerst twee fundamentele beperkingen van naïeve leerbare geheugenarchitecturen in langetermijnextrapolatie, namelijk computationele inefficiëntie en aandachtsdispersie. Door een systematische analyse van aandachtsdispersie stellen we DecMem voor, een ontkoppelde geheugenarchitectuur die Sparse Global Memory gebruikt voor efficiënte fijnkorrelige toegang tot globale geschiedenis en Anchored Local Memory voor stabiele en hoogwaardige extrapolatie. Uitgebreide experimenten tonen aan dat DecMem aanzienlijk beter presteert dan de huidige state-of-the-art methoden. Door te zorgen voor precies en efficiënt geheugen op lange termijn en superieure extrapolatiecapaciteiten te bereiken, maakt DecMem minuutniveau controleerbare lange videogeneratie mogelijk met hoge getrouwheid en consistentie.

English

Recent advances in video generative models have promoted rapid progress in controllable world models. However, maintaining fine-grained spatio-temporal consistency under long-horizon reasoning remains a key challenge. In this work, we move beyond explicit 3D memory and coarse frame-level implicit modeling, and propose a fine-grained, learnable, and scalable memory for consistent world generation. We first identify two fundamental limitations of naïve learnable memory architectures in long-horizon extrapolation, namely computational inefficiency and attention dispersion. Through a systematic analysis of attention dispersion, we propose DecMem, a decoupled memory architecture that employs Sparse Global Memory for efficient fine-grained access to global history and Anchored Local Memory for stable and high-quality extrapolation. Extensive experiments demonstrate that DecMem significantly outperforms current state-of-the-art methods. By ensuring precise and efficient long-term memory and achieving superior extrapolation capabilities, DecMem enables minute-level controllable long video generation with high fidelity and consistency.