ChatPaper.aiChatPaper

더미 헤드를 활용한 효율적인 자기회귀 비디오 확산

Efficient Autoregressive Video Diffusion with Dummy Head

January 28, 2026
저자: Hang Guo, Zhaoyang Jia, Jiahao Li, Bin Li, Yuanhao Cai, Jiangshan Wang, Yawei Li, Yan Lu
cs.AI

초록

자동회귀 비디오 확산 모델은 인과적 모델링과 반복적 노이즈 제거 특성으로 인해 최근 상당한 연구 관심을 받고 있습니다. 본 연구에서는 이러한 모델들의 다중 헤드 자기 주의 메커니즘이 과거 프레임을 충분히 활용하지 못함을 발견했습니다: 약 25%의 헤드들이 현재 프레임에만 집중하며, 이들의 KV 캐시를 제거해도 성능 저하는 미미합니다. 이를 바탕으로 우리는 다양한 헤드 간 컨텍스트 접근성을 제어하는 간단하면서 효과적인 방법인 Dummy Forcing을 제안합니다. 구체적으로, 제안된 이질적 메모리 할당 기법은 헤드별 컨텍스트 중복성을 줄이고, 동적 헤드 프로그래밍을 통해 헤드 유형을 적응적으로 분류합니다. 더 나아가 더 적극적인 캐시 압축을 위한 컨텍스트 패킹 기법을 개발했습니다. 추가 학습 없이도 우리의 Dummy Forcing은 기준 모델 대비 최대 2.0배의 속도 향상을 제공하며, 0.5% 미만의 품질 저하로 24.3 FPS의 비디오 생성을 지원합니다. 프로젝트 페이지는 https://csguoh.github.io/project/DummyForcing/에서 확인할 수 있습니다.
English
The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.
PDF51February 6, 2026