FadeMem: Consolidação de Memória com Consciência de Distância para Difusão Autoregressiva de Vídeo
FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion
June 9, 2026
Autores: Yu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang
cs.AI
Resumo
Os geradores de vídeo autorregressivos sintetizam vídeos longos gerando segmentos temporais sucessivos, mas seu cache KV histórico cresce com a duração do vídeo. Métodos existentes de cache limitado reduzem esse custo com janelas locais, sink tokens ou estados de memória comprimidos, embora geralmente atribuam papéis fixos a diferentes partes do histórico. Propomos o FadeMem, um mecanismo de consolidação de memória KV consciente da distância que organiza blocos KV históricos em uma hierarquia temporal sob um orçamento fixo de cache. Esse design é motivado pelo decaimento temporal dependente da frequência: detalhes finos se descorrelacionam rapidamente, enquanto a estrutura geral da cena e a identidade permanecem úteis por horizontes mais longos. Durante a geração, o novo histórico é inserido como entradas de granularidade fina, enquanto entradas adjacentes mais antigas são progressivamente mescladas sob um cronograma de alocação temporal de lei de potência, resultando em uma memória densa-próxima e esparsa-distante dentro de um único cache. Sem alterações arquitetônicas, o FadeMem preserva o contexto recente para dinâmicas de curto prazo e âncoras compactas de longo alcance para identidade e coerência da cena. Experimentos mostram consistência do sujeito, estabilidade do fundo e coerência temporal superiores em relação às estratégias existentes de cache limitado.
English
Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.