Эффективная авторегрессионная видеодиффузия с фиктивным заголовком
Efficient Autoregressive Video Diffusion with Dummy Head
January 28, 2026
Авторы: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI
Аннотация
Авторегрессионные модели видео-диффузии в последнее время вызывают значительный исследовательский интерес благодаря своему каузальному моделированию и итеративному шумоподавлению. В данной работе мы выявляем, что многоголовые механизмы самовнимания в этих моделях недостаточно используют исторические кадры: приблизительно 25% голов внимания практически полностью фокусируются на текущем кадре, а удаление их KV-кэшей приводит лишь к незначительной деградации качества. На основе этого наблюдения мы предлагаем Dummy Forcing — простой, но эффективный метод управления доступностью контекста для различных голов. В частности, предложенное гетерогенное распределение памяти снижает избыточность контекста на уровне голов, дополненное динамическим программированием голов для адаптивной классификации их типов. Кроме того, мы разработали технику упаковки контекста для достижения более агрессивного сжатия кэша. Без дополнительного обучения наш метод Dummy Forcing обеспечивает до 2-кратного ускорения по сравнению с базовым подходом, поддерживая генерацию видео со скоростью 24.3 кадра в секунду при падении качества менее чем на 0.5%. Страница проекта доступна по адресу https://csguoh.github.io/project/DummyForcing/.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.