광학 강제: 희소 주의 메커니즘을 통한 자기회귀 비디오 확산 가속
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention
February 4, 2026
저자: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI
초록
고급 자기회귀(AR) 비디오 생성 모델은 시각적 정확도와 상호작용성이 향상되었지만, 어텐션의 2차 복잡도는 효율적 배포의 주요 병목 현상으로 남아 있습니다. 기존 희소 어텐션 솔루션이 양방향 모델에서 유망한 성과를 보였으나, 이러한 솔루션을 AR 모델에 적용할 경우 두 가지 이유로 상당한 성능 저하가 발생함을 확인했습니다: 청크 생성의 단편적 고려와 과거 정보 맥락의 불충분한 활용입니다. 이러한 관찰을 바탕으로 우리는 AR 비디오 생성 모델에 특화된 최초의 희소 어텐션 솔루션인 Light Forcing을 제안합니다. 여기에는 각 청크의 기여도를 정량적으로 추정하여 이들의 희소성 할당을 결정하는 Chunk-Aware Growth 메커니즘이 포함됩니다. 이 점진적 희소성 증가 전략은 현재 청크가 생성 과정에서 이전 청크의 사전 지식을 계승할 수 있게 합니다. 추가적으로, 우리는 정보적인 역사적 및 지역적 맥락을 coarse-to-fine 방식으로 포착하는 Hierarchical Sparse Attention을 도입했습니다. 이러한 두 수준의 마스크 선택 전략(즉, 프레임 및 블록 수준)은 다양한 어텐션 패턴을 적응적으로 처리할 수 있습니다. 폭넓은 실험을 통해 우리의 방법이 기존 희소 어텐션 대비 품질(예: VBench 기준 84.5점)과 효율성(예: 1.2~1.3배 종단 간 속도 향상)에서 우수함을 입증했습니다. FP8 양자화 및 LightVAE와 결합 시, Light Forcing은 RTX 5090 GPU에서 2.3배의 속도 향상과 19.7 FPS를 추가로 달성했습니다. 코드는 https://github.com/chengtao-lv/LightForcing 에 공개될 예정입니다.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.