DecMem: Zur minutenlangen konsistenten Weltgenerierung mit entkoppeltem Speicher

Zusammenfassung

Jüngste Fortschritte bei videogenerativen Modellen haben zu einem raschen Fortschritt bei steuerbaren Weltmodellen geführt. Allerdings bleibt die Aufrechterhaltung einer feinkörnigen räumlich-zeitlichen Konsistenz unter langfristigen Überlegungen eine zentrale Herausforderung. In dieser Arbeit gehen wir über explizites 3D-Gedächtnis und grobkörniges implizites Modellieren auf Frame-Ebene hinaus und schlagen ein feinkörniges, lernbares und skalierbares Gedächtnis für konsistente Welterzeugung vor. Zunächst identifizieren wir zwei grundlegende Einschränkungen naiver lernbarer Gedächtnisarchitekturen bei der langfristigen Extrapolation, nämlich Rechenineffizienz und Aufmerksamkeitsdispersion. Durch eine systematische Analyse der Aufmerksamkeitsdispersion schlagen wir DecMem vor, eine entkoppelte Gedächtnisarchitektur, die ein Sparse Global Memory für effizienten feinkörnigen Zugriff auf die globale Historie und ein Anchored Local Memory für stabile und hochwertige Extrapolation einsetzt. Umfangreiche Experimente zeigen, dass DecMem aktuelle State-of-the-Art-Methoden deutlich übertrifft. Durch die Gewährleistung eines präzisen und effizienten Langzeitgedächtnisses und die Erzielung überragender Extrapolationsfähigkeiten ermöglicht DecMem eine auf Minutenebene steuerbare lange Videogenerierung mit hoher Wiedergabetreue und Konsistenz.

English

Recent advances in video generative models have promoted rapid progress in controllable world models. However, maintaining fine-grained spatio-temporal consistency under long-horizon reasoning remains a key challenge. In this work, we move beyond explicit 3D memory and coarse frame-level implicit modeling, and propose a fine-grained, learnable, and scalable memory for consistent world generation. We first identify two fundamental limitations of naïve learnable memory architectures in long-horizon extrapolation, namely computational inefficiency and attention dispersion. Through a systematic analysis of attention dispersion, we propose DecMem, a decoupled memory architecture that employs Sparse Global Memory for efficient fine-grained access to global history and Anchored Local Memory for stable and high-quality extrapolation. Extensive experiments demonstrate that DecMem significantly outperforms current state-of-the-art methods. By ensuring precise and efficient long-term memory and achieving superior extrapolation capabilities, DecMem enables minute-level controllable long video generation with high fidelity and consistency.