ChatPaper.aiChatPaper

Difusão de Vídeo Autoregressiva Eficiente com Cabeça Fictícia

Efficient Autoregressive Video Diffusion with Dummy Head

January 28, 2026
Autores: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI

Resumo

O modelo de difusão de vídeo autoregressivo tem recentemente despertado considerável interesse de pesquisa devido à sua modelagem causal e desruído iterativo. Neste trabalho, identificamos que a autoatenção de múltiplas cabeças nestes modelos subutiliza os quadros históricos: aproximadamente 25% das cabeças atendem quase exclusivamente ao quadro atual, e descartar suas caches KV incorre em apenas uma degradação menor de desempenho. Com base nisso, propomos o Dummy Forcing, um método simples mas eficaz para controlar a acessibilidade do contexto entre diferentes cabeças. Especificamente, a proposta de alocação heterogênea de memória reduz a redundância contextual por cabeça, acompanhada por programação dinâmica de cabeças para classificar adaptivamente os tipos de cabeça. Além disso, desenvolvemos uma técnica de empacotamento de contexto para alcançar uma compressão de cache mais agressiva. Sem treinamento adicional, nosso Dummy Forcing proporciona uma aceleração de até 2.0x em relação à linha de base, suportando geração de vídeo a 24.3 FPS com menos de 0.5% de queda de qualidade. A página do projeto está disponível em https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.
PDF85March 21, 2026