ChatPaper.aiChatPaper

Diffusione Video Autoregressiva Efficiente con Testa Fittizia

Efficient Autoregressive Video Diffusion with Dummy Head

January 28, 2026
Autori: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI

Abstract

Il modello di diffusione video autoregressivo ha recentemente riscontrato notevole interesse nella ricerca grazie alla sua modellazione causale e alla rimozione iterativa del rumore. In questo lavoro, identifichiamo come l'auto-attenzione multi-testa in questi modelli sottoutilizzi i frame storici: circa il 25% delle teste si concentra quasi esclusivamente sul frame corrente, e l'eliminazione delle relative cache KV comporta solo un lieve degrado delle prestazioni. Basandoci su questa osservazione, proponiamo Dummy Forcing, un metodo semplice ma efficace per controllare l'accessibilità del contesto tra diverse teste. Nello specifico, l'allocazione eterogenea della memoria proposta riduce la ridondanza contestuale a livello di testa, affiancata da una programmazione dinamica delle teste per classificare adattivamente i tipi di testa. Inoltre, sviluppiamo una tecnica di compattazione del contesto per ottenere una compressione più aggressiva della cache. Senza training aggiuntivo, il nostro Dummy Forcing raggiunge un miglioramento di velocità fino a 2.0x rispetto al baseline, supportando la generazione video a 24.3 FPS con un calo di qualità inferiore allo 0.5%. La pagina del progetto è disponibile all'indirizzo https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.
PDF54February 8, 2026