Forcing-KV: Hybride KV-Cache-Kompression für effiziente autoregressive Video-Diffusionsmodelle

Zusammenfassung

Autoregressive (AR) Videodiffusionsmodelle verwenden ein Streaming-Generierungsframework, das die Echtzeit-Generierung langer Videosequenzen ermöglicht, wie das Self-Forcing-Trainingsparadigma zeigt. Allerdings leiden bestehende AR-Videodiffusionsmodelle aufgrund der redundanten Schlüssel-Wert (KV)-Caches über historische Frames hinweg weiterhin unter erheblicher Aufmerksamkeitskomplexität und hohem Speicherbedarf, was die Skalierbarkeit einschränkt. In dieser Arbeit begegnen wir dieser Herausforderung, indem wir KV-Cache-Kompression in autoregressive Videodiffusion einführen. Wir beobachten, dass Aufmerksamkeitsköpfe in gängigen AR-Diffusionsmodellen deutlich unterschiedliche Aufmerksamkeitsmuster und funktionale Rollen aufweisen, die über Stichproben und Denoising-Schritte hinweg stabil bleiben. Aufbauend auf unserer empirischen Untersuchung der kopfweisen funktionalen Spezialisierung unterteilen wir die Aufmerksamkeitsköpfe in zwei Kategorien: statische Köpfe, die sich auf Übergänge zwischen autoregressiven Blöcken und Intra-Frame-Treue konzentrieren, und dynamische Köpfe, die Inter-Frame-Bewegung und Konsistenz steuern. Anschließend schlagen wir Forcing-KV vor, eine hybride KV-Cache-Kompressionsstrategie, die für statische Köpfe strukturierte statische Bereinigung und für dynamische Köpfe dynamische Bereinigung auf Basis segmentspezifischer Ähnlichkeit durchführt. Bei gleichbleibender Ausgabequalität erreicht unsere Methode eine Generierungsgeschwindigkeit von über 29 Bildern pro Sekunde auf einer einzelnen NVIDIA H200 GPU sowie eine Reduzierung des Cache-Speichers um 30 %, was zu bis zu 1,35-facher und 1,50-facher Beschleunigung bei LongLive und Self Forcing in 480P-Auflösung führt und sich auf 2,82-fache Beschleunigung in 1080P-Auflösung skaliert. Code und Demovideos finden Sie unter https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.