Efficiënte Autoregressieve Videodiffusie met Dummy Head
Efficient Autoregressive Video Diffusion with Dummy Head
January 28, 2026
Auteurs: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI
Samenvatting
Het autoregressieve videodiffusiemodel heeft recentelijk aanzienlijke onderzoeksinteresse gegenereerd vanwege zijn causale modellering en iteratieve denoisering. In dit werk constateren wij dat de multi-head self-attention in deze modellen historische frames onderbenut: ongeveer 25% van de heads richt zich vrijwel uitsluitend op het huidige frame, en het verwijderen van hun KV-caches leidt slechts tot minimale prestatievermindering. Hierop voortbouwend presenteren wij Dummy Forcing, een eenvoudige maar effectieve methode om de toegankelijkheid van context over verschillende heads te controleren. Concreet reduceert de voorgestelde heterogene geheugentoewijzing de redundantie van context per head, gepaard gaand met dynamische headprogrammering om headtypen adaptief te classificeren. Voorts ontwikkelen wij een context packing-techniek om een agressievere cachecompressie te bereiken. Zonder aanvullende training levert onze Dummy Forcing een versnelling tot 2.0x ten opzichte van de baseline, waarbij videogeneratie met 24.3 FPS wordt ondersteund met een kwaliteitsverlies van minder dan 0.5%. De projectpagina is beschikbaar op https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.