Licht Forceren: Versnelling van Autoregressieve Videodiffusie via Sparse Attention
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention
February 4, 2026
Auteurs: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI
Samenvatting
Geavanceerde autoregressieve (AR) videogeneratiemodellen hebben een verbeterde visuele kwaliteit en interactiviteit, maar de kwadratische complexiteit van aandacht blijft een primair knelpunt voor efficiënte inzet. Hoewel bestaande oplossingen met sparse aandacht veelbelovend zijn gebleken voor bidirectionele modellen, constateren wij dat de toepassing ervan op AR-modellen leidt tot aanzienlijke prestatievermindering om twee redenen: geïsoleerde beschouwing van chunkgeneratie en onvoldoende benutting van informatieve context uit het verleden. Gemotiveerd door deze observaties stellen wij Light Forcing voor, de eerste sparse-aandachtsoplossing toegesneden op AR-videogeneratiemodellen. Het bevat een Chunk-Aware Growth-mechanisme om de bijdrage van elke chunk kwantitatief in te schatten, wat hun sparse toewijzing bepaalt. Deze progressieve strategie voor sparsiteitstoename stelt de huidige chunk in staat om tijdens de generatie eerder opgedane kennis uit eerdere chunks te erven. Daarnaast introduceren wij een Hiërarchische Sparse Aandacht om informatieve historische en lokale context op een coarse-to-fine-manier vast te leggen. Zo'n tweeledige maskerselectiestrategie (d.w.z. op frameniveau en blokniveau) kan diverse aandachtspatronen adaptief afhandelen. Uitgebreide experimenten tonen aan dat onze methode bestaande sparse aandacht overtreft in kwaliteit (bijv. 84,5 op VBench) en efficiëntie (bijv. 1,2∼1,3× end-to-end versnelling). In combinatie met FP8-kwantisering en LightVAE bereikt Light Forcing verder een 2,3× versnelling en 19,7 FPS op een RTX 5090 GPU. Code zal worden vrijgegeven op https://github.com/chengtao-lv/LightForcing.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.