Diffusion vidéo autorégressive efficace avec tête factice
Efficient Autoregressive Video Diffusion with Dummy Head
January 28, 2026
papers.authors: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI
papers.abstract
Le modèle de diffusion vidéo autorégressif a récemment suscité un intérêt de recherche considérable grâce à sa modélisation causale et à son débruîtage itératif. Dans ce travail, nous constatons que l'auto-attention multi-têtes dans ces modèles sous-utilise les trames historiques : environ 25 % des têtes s'attachent presque exclusivement à la trame courante, et supprimer leurs caches KV n'entraîne qu'une dégradation mineure des performances. Sur cette base, nous proposons Dummy Forcing, une méthode simple mais efficace pour contrôler l'accessibilité du contexte entre les différentes têtes. Spécifiquement, l'allocation de mémoire hétérogène proposée réduit la redondance contextuelle par tête, accompagnée d'une programmation dynamique des têtes pour classer adaptivement les types de têtes. De plus, nous développons une technique de regroupement contextuel pour obtenir une compression de cache plus agressive. Sans entraînement supplémentaire, notre méthode Dummy Forcing offre une accélération jusqu'à 2,0x par rapport à la baseline, permettant une génération vidéo à 24,3 IPS avec une baisse de qualité inférieure à 0,5 %. La page du projet est disponible à l'adresse https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.