Effiziente autoregressive Videodiffusion mit Dummy-Kopf
Efficient Autoregressive Video Diffusion with Dummy Head
January 28, 2026
papers.authors: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI
papers.abstract
Autoregressive Video-Diffusionsmodelle haben aufgrund ihrer kausalen Modellierung und iterativen Rauschunterdrückung in letzter Zeit erhebliches Forschungsinteresse geweckt. In dieser Arbeit stellen wir fest, dass die Multi-Head-Self-Attention in diesen Modellen historische Frames unterauslastet: etwa 25 % der Attention-Heads konzentrieren sich fast ausschließlich auf den aktuellen Frame, und das Verwerfen ihrer KV-Caches führt nur zu geringen Leistungseinbußen. Aufbauend darauf schlagen wir Dummy Forcing vor, eine einfache, aber effektive Methode zur Steuerung der Kontextzugänglichkeit über verschiedene Heads hinweg. Konkret reduziert die vorgeschlagene heterogene Speicherzuweisung redundante Kontextinformationen auf Head-Ebene, ergänzt durch dynamische Head-Programmierung zur adaptiven Klassifizierung von Head-Typen. Darüber hinaus entwickeln wir eine Context-Packing-Technik, um eine aggressivere Cache-Kompression zu erreichen. Ohne zusätzliches Training erzielt unser Dummy Forcing eine bis zu 2,0-fache Beschleunigung gegenüber der Basisversion und ermöglicht Videogenerierung mit 24,3 FPS bei einem Qualitätsverlust von weniger als 0,5 %. Die Projektseite ist unter https://csguoh.github.io/project/DummyForcing/ verfügbar.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.