FadeMem : Consolidation de mémoire sensible à la distance pour la diffusion vidéo autorégressive
FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion
June 9, 2026
Auteurs: Yu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang
cs.AI
Résumé
Les générateurs vidéo autorégressifs synthétisent de longues vidéos en générant des segments temporels successifs, mais leur cache KV historique croît avec la longueur de la vidéo. Les méthodes existantes à cache limité réduisent ce coût grâce à des fenêtres locales, des jetons puits ou des états mémoire compressés, mais elles attribuent généralement des rôles fixes à différentes parties de l'historique. Nous proposons FadeMem, un mécanisme de consolidation de mémoire KV sensible à la distance qui organise les blocs KV historiques en une hiérarchie temporelle sous un budget de cache fixe. Cette conception est motivée par une décroissance temporelle dépendante de la fréquence : les détails fins se décorrèlent rapidement, tandis que la structure grossière de la scène et l'identité restent utiles sur des horizons plus longs. Pendant la génération, les nouvelles entrées historiques sont insérées comme des éléments fins, tandis que les entrées adjacentes plus anciennes sont progressivement fusionnées selon un plan d'allocation temporelle en loi de puissance, produisant une mémoire dense pour le proche et éparse pour le lointain au sein d'un seul cache. Sans modification architecturale, FadeMem préserve le contexte récent pour la dynamique à court terme et des ancres compactes à longue portée pour la cohérence de l'identité et de la scène. Les expériences montrent une amélioration de la cohérence du sujet, de la stabilité de l'arrière-plan et de la cohérence temporelle par rapport aux stratégies existantes à cache limité.
English
Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.