FadeMem: Afstandsbewuste Geheugenconsolidatie voor Autoregressieve Videodiffusie

Samenvatting

Autoregressieve videogeneratoren synthetiseren lange video's door opeenvolgende temporele segmenten te genereren, maar hun historische KV-cache groeit met de videolengte. Bestaande methoden met begrensde cache verlagen deze kosten met lokale vensters, sink-tokens of gecomprimeerde geheugentoestanden, maar kennen gewoonlijk vaste rollen toe aan verschillende delen van de geschiedenis. Wij stellen FadeMem voor, een afstandsbewust KV-geheugenconsolidatiemechanisme dat historische KV-blokken ordent in een temporele hiërarchie onder een vast cachebudget. Dit ontwerp is gemotiveerd door frequentieafhankelijk temporeel verval: fijne details decorreleren snel, terwijl grove scenestructuur en identiteit gedurende langere tijdshorizonten bruikbaar blijven. Tijdens generatie wordt nieuwe geschiedenis ingevoegd als fijnmazige ingangen, terwijl oudere aangrenzende ingangen geleidelijk worden samengevoegd volgens een machtswet-temporeel toewijzingsschema, wat resulteert in een dichtbij-dicht, veraf-schaars geheugen binnen één cache. Zonder architectuurwijzigingen behoudt FadeMem recente context voor kortetermijndynamiek en compacte verre ankers voor identiteit- en scènecoherentie. Experimenten tonen verbeterde subjectconsistentie, achtergrondstabiliteit en temporele coherentie aan in vergelijking met bestaande strategieën met begrensde cache.

English

Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.