Forcing-KV : Compression hybride du cache KV pour des modèles de diffusion vidéo autorégressifs efficaces

Résumé

Les modèles de diffusion vidéo autorégressifs (AR) adoptent un cadre de génération en flux, permettant une génération vidéo à long horizon avec une réactivité en temps réel, comme illustré par le paradigme d'entraînement Self Forcing. Cependant, les modèles de diffusion vidéo AR existants souffrent encore d'une complexité d'attention significative et d'une charge mémoire importante en raison des caches clé-valeur (KV) redondants à travers les trames historiques, ce qui limite leur passage à l'échelle. Dans cet article, nous relevons ce défi en introduisant la compression du cache KV dans la diffusion vidéo autorégressive. Nous observons que les têtes d'attention dans les modèles de diffusion AR dominants présentent des schémas d'attention et des rôles fonctionnels nettement distincts, qui restent stables entre les échantillons et les étapes de débruitage. En nous appuyant sur notre étude empirique de la spécialisation fonctionnelle par tête, nous divisons les têtes d'attention en deux catégories : les têtes statiques, qui se concentrent sur les transitions entre les segments autorégressifs et la fidélité intra-trame, et les têtes dynamiques, qui régissent le mouvement inter-trame et la cohérence. Nous proposons ensuite Forcing-KV, une stratégie hybride de compression du cache KV qui effectue un élagage structuré statique pour les têtes statiques et un élagage dynamique basé sur la similarité entre segments pour les têtes dynamiques. Tout en maintenant la qualité de sortie, notre méthode atteint une vitesse de génération de plus de 29 images par seconde sur un seul GPU NVIDIA H200, avec une réduction de 30 % de la mémoire cache, offrant des accélérations allant jusqu'à 1,35x et 1,50x sur LongLive et Self Forcing en résolution 480P, et atteignant une accélération de 2,82x en résolution 1080P. Le code et les vidéos de démonstration sont disponibles à l'adresse https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.