ChatPaper.aiChatPaper

Difusión de Video Autoregresiva Eficiente con Cabeza Ficticia

Efficient Autoregressive Video Diffusion with Dummy Head

January 28, 2026
Autores: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI

Resumen

El modelo de difusión de video autorregresivo ha despertado reciente interés investigativo debido a su modelado causal y desruido iterativo. En este trabajo, identificamos que la autoatención multi-cabezal en estos modelos subutiliza los fotogramas históricos: aproximadamente el 25% de las cabezas atienden casi exclusivamente al fotograma actual, y descartar sus cachés de claves-valores incurre solo en una degradación menor del rendimiento. Basándonos en esto, proponemos Dummy Forcing, un método sencillo pero efectivo para controlar la accesibilidad del contexto entre diferentes cabezas. Específicamente, la asignación heterogénea de memoria propuesta reduce la redundancia contextual por cabeza, acompañada de una programación dinámica de cabezas para clasificar adaptativamente los tipos de cabeza. Además, desarrollamos una técnica de empaquetado de contexto para lograr una compresión de caché más agresiva. Sin entrenamiento adicional, nuestro Dummy Forcing logra una aceleración de hasta 2.0x sobre la línea base, permitiendo generar video a 24.3 FPS con una caída de calidad inferior al 0.5%. La página del proyecto está disponible en https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.
PDF51February 6, 2026