FadeMem: Distanzbewusste Speicherkonsolidierung für autoregressive Videodiffusion

Zusammenfassung

Autoregressive Videogeneratoren synthetisieren lange Videos durch die Erzeugung aufeinanderfolgender zeitlicher Segmente, jedoch wächst ihr historischer KV-Cache mit der Videolänge. Bestehende Methoden mit begrenztem Cache reduzieren diese Kosten durch lokale Fenster, Sink-Tokens oder komprimierte Speicherzustände, weisen jedoch üblicherweise verschiedenen Teilen der Historie feste Rollen zu. Wir schlagen FadeMem vor, einen distanzbewussten Mechanismus zur KV-Speicherkonsolidierung, der historische KV-Blöcke unter einem festen Cache-Budget in eine zeitliche Hierarchie organisiert. Dieses Design ist durch frequenzabhängigen zeitlichen Zerfall motiviert: Feine Details dekorrelieren schnell, während grobe Szenenstruktur und Identität über längere Horizonte hinweg nützlich bleiben. Während der Generierung wird neue Historie als feinkörnige Einträge eingefügt, während ältere benachbarte Einträge unter einem Potenzgesetz-Zeitzuteilungsplan progressiv zusammengeführt werden, was einen dichten-nahen, spärlich-fernen Speicher innerhalb eines Caches ergibt. Ohne architektonische Änderungen bewahrt FadeMem aktuellen Kontext für kurzfristige Dynamiken und kompakte Langstreckenanker für Identitäts- und Szenenkohärenz. Experimente zeigen verbesserte Subjektkonsistenz, Hintergrundstabilität und zeitliche Kohärenz im Vergleich zu bestehenden Strategien mit begrenztem Cache.

English

Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.