Forcing-KV: Hybride KV-cachecompressie voor Efficiënte Autoregressieve Videodiffusiemodellen

Samenvatting

Autoregressieve (AR) videodiffusiemodellen maken gebruik van een streaminggeneratiekader, waardoor videogeneratie over lange horizon met real-time responsiviteit mogelijk wordt, zoals geïllustreerd door het Self Forcing-trainingsparadigma. Bestaande AR-videodiffusiemodellen hebben echter nog steeds te lijden onder aanzienlijke aandachtcomplexiteit en ernstige geheugenoverhead door de redundante key-value (KV)-caches in historische frames, wat de schaalbaarheid beperkt. In dit artikel pakken we deze uitdaging aan door KV-cachecompressie te introduceren in autoregressieve videodiffusie. We observeren dat aandachtkoppen in gangbare AR-diffusiemodellen opvallend verschillende aandachtspatronen en functionele rollen vertonen die stabiel blijven over samples en denoising-stappen. Voortbouwend op ons empirische onderzoek naar functionele specialisatie per kop, verdelen we de aandachtkoppen in twee categorieën: statische koppen, die zich richten op overgangen tussen autoregressieve chunks en intra-framegetrouwheid, en dynamische koppen, die inter-framebeweging en consistentie beheren. We stellen vervolgens Forcing-KV voor, een hybride KV-cachecompressiestrategie die gestructureerde statische pruning uitvoert voor statische koppen en dynamische pruning op basis van segmentgewijze gelijkenis voor dynamische koppen. Terwijl de uitvoerkwaliteit behouden blijft, bereikt onze methode een generatiesnelheid van meer dan 29 frames per seconde op een enkele NVIDIA H200 GPU, samen met een 30% reductie van cachegeheugen, wat leidt tot snelheidsverbeteringen van 1,35x en 1,50x op LongLive en Self Forcing bij 480P-resolutie, en verder oplopend tot een 2,82x snelheidsverbetering bij 1080P-resolutie. Code en demovideo's zijn beschikbaar op https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.