Forcing-KV: Гибридное сжатие кэша KV для эффективных авторегрессионных видеодиффузионных моделей

Аннотация

Авторегрессионные (AR) модели диффузии видео используют потоковый генеративный фреймворк, обеспечивающий создание видео большой длительности с мгновенной реакцией, как показано на примере обучающей парадигмы Self Forcing. Однако существующие AR-модели диффузии видео по-прежнему страдают от значительной сложности внимания и серьезных накладных расходов памяти из-за избыточных кэшей ключ-значение (KV) для исторических кадров, что ограничивает масштабируемость. В данной работе мы решаем эту проблему, внедряя сжатие KV-кэша в авторегрессионную диффузию видео. Мы обнаружили, что головы внимания в основных AR-моделях диффузии демонстрируют ярко выраженные различные паттерны внимания и функциональные роли, которые остаются стабильными при изменении семплов и шагов денойзинга. Основываясь на нашем эмпирическом исследовании функциональной специализации голов, мы разделяем головы внимания на две категории: статические головы, которые сосредоточены на переходах между авторегрессионными блоками и внутрикадровой точности, и динамические головы, управляющие межкадровым движением и согласованностью. Затем мы предлагаем Forcing-KV — гибридную стратегию сжатия KV-кэша, выполняющую структурное статическое прореживание для статических голов и динамическое прореживание на основе посегментной схожести для динамических голов. При сохранении качества выходных данных наш метод достигает скорости генерации более 29 кадров в секунду на одном GPU NVIDIA H200 с сокращением объема кэша на 30%, обеспечивая ускорение до 1,35 и 1,50 раз для LongLive и Self Forcing при разрешении 480P, а также масштабируясь до ускорения в 2,82 раза при разрешении 1080P. Код и демонстрационные видео доступны по адресу https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.