ФейдМем: учитывающая расстояние консолидация памяти для авторегрессионной видеодиффузии

Аннотация

Авторегрессионные генераторы видео синтезируют длинные видеопоследовательности путем порождения последовательных временных сегментов, однако их исторический KV-кэш растет с длиной видео. Существующие методы с ограниченным кэшем уменьшают эту стоимость за счет использования локальных окон, токенов-приемников или сжатых состояний памяти, но обычно они назначают фиксированные роли различным частям истории. Мы предлагаем FadeMem — механизм консолидации KV-памяти, учитывающий расстояние, который организует исторические KV-блоки во временную иерархию при фиксированном бюджете кэша. Эта конструкция мотивирована частотно-зависимым временным затуханием: мелкие детали быстро декоррелируют, в то время как крупномасштабная структура сцены и идентичность объектов остаются полезными на более длинных горизонтах. В процессе генерации новая история вставляется как мелкозернистые записи, в то время как более старые соседние записи постепенно сливаются по степенному закону временного распределения, что дает в рамках одного кэша память с плотной ближней и разреженной дальней зонами. Без архитектурных изменений FadeMem сохраняет недавний контекст для краткосрочной динамики и компактные долгосрочные якоря для идентичности и согласованности сцены. Эксперименты показывают улучшенную согласованность объектов, стабильность фона и временную согласованность по сравнению с существующими стратегиями с ограниченным кэшем.

English

Autoregressive video generators synthesize long videos by generating successive temporal segments, but their historical KV cache grows with video length. Existing bounded-cache methods reduce this cost with local windows, sink tokens, or compressed memory states, yet they usually assign fixed roles to different parts of the history. We propose FadeMem, a distance-aware KV memory consolidation mechanism that organizes historical KV blocks into a temporal hierarchy under a fixed cache budget. This design is motivated by frequency-dependent temporal decay: fine details decorrelate quickly, while coarse scene structure and identity remain useful over longer horizons. During generation, new history is inserted as fine-grained entries, while older adjacent entries are progressively merged under a power-law temporal allocation schedule, yielding a dense-near, sparse-far memory within one cache. Without architectural changes, FadeMem preserves recent context for short-term dynamics and compact long-range anchors for identity and scene coherence. Experiments show improved subject consistency, background stability, and temporal coherence over existing bounded-cache strategies.