ダミーヘッドを用いた効率的な自己回帰的ビデオ拡散
Efficient Autoregressive Video Diffusion with Dummy Head
January 28, 2026
著者: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI
要旨
自己回帰型ビデオ拡散モデルは、因果的モデリングと反復的なノイズ除去により、近年大きな研究関心を集めている。本研究では、これらのモデルにおけるマルチヘッド自己注意機構が履歴フレームを十分に活用していないことを明らかにする。具体的には、約25%のヘッドがほぼ現在のフレームのみに注目し、これらのKVキャッシュを破棄しても性能劣化は軽微である。この知見に基づき、我々はDummy Forcingを提案する。これは異なるヘッド間での文脈アクセシビリティを制御する簡潔かつ効果的な手法である。具体的には、ヘッドごとの文脈冗長性を低減する異種メモリ割り当てと、適応的にヘッドタイプを分類する動的ヘッドプログラミングを組み合わせる。さらに、より積極的なキャッシュ圧縮を実現する文脈パッキング技術を開発した。追加の学習なしで、提案手法はベースライン比最大2.0倍の高速化を達成し、24.3 FPSのビデオ生成を品質劣化0.5%未満で実現する。プロジェクトページはhttps://csguoh.github.io/project/DummyForcing/で公開されている。
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.