ChatPaper.aiChatPaper

FadeMem: Consolidación de Memoria Sensible a la Distancia para Difusión de Video Autorregresiva

FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

June 9, 2026
Autores: Yu Lu, Junjie Yang, Piotr Koniusz, YuXin Song, Yi Yang
cs.AI

Resumen

Los generadores de video autorregresivos sintetizan videos largos generando segmentos temporales sucesivos, pero su caché KV histórico crece con la duración del video. Los métodos existentes de caché acotada reducen este costo mediante ventanas locales, tokens sumidero o estados de memoria comprimida, aunque suelen asignar roles fijos a diferentes partes del historial. Proponemos FadeMem, un mecanismo de consolidación de memoria KV sensible a la distancia que organiza los bloques KV históricos en una jerarquía temporal bajo un presupuesto fijo de caché. Este diseño está motivado por un decaimiento temporal dependiente de la frecuencia: los detalles finos se descorrelacionan rápidamente, mientras que la estructura gruesa de la escena y la identidad siguen siendo útiles en horizontes más largos. Durante la generación, el nuevo historial se inserta como entradas de grano fino, mientras que las entradas adyacentes más antiguas se fusionan progresivamente bajo un esquema de asignación temporal de ley de potencias, produciendo una memoria densa-cerca, dispersa-lejos dentro de una sola caché. Sin cambios arquitectónicos, FadeMem preserva el contexto reciente para dinámicas de corto plazo y anclajes compactos de largo alcance para la identidad y la coherencia de la escena. Los experimentos muestran una mejora en la consistencia del sujeto, la estabilidad del fondo y la coherencia temporal en comparación con las estrategias existentes de caché acotada.
English
Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.