ChatPaper.aiChatPaper

Licht-Forcierung: Beschleunigung autoregressiver Videodiffusion durch sparse Attention

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

February 4, 2026
papers.authors: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI

papers.abstract

Fortgeschrittene autoregressive (AR) Video-Generationsmodelle haben eine verbesserte visuelle Qualität und Interaktivität erreicht, doch die quadratische Komplexität der Attention bleibt ein primärer Engpass für einen effizienten Einsatz. Während bestehende Sparse-Attention-Lösungen bei bidirektionalen Modellen vielversprechende Ergebnisse gezeigt haben, stellen wir fest, dass die Anwendung dieser Lösungen auf AR-Modelle aus zwei Gründen zu erheblichen Leistungseinbußen führt: der isolierten Betrachtung der Chunk-Generierung und der unzureichenden Nutzung des informativen Kontexts aus der Vergangenheit. Aufbauend auf diesen Beobachtungen schlagen wir Light Forcing vor, die erste Sparse-Attention-Lösung, die speziell für AR-Video-Generationsmodelle entwickelt wurde. Sie integriert einen Chunk-Aware-Growth-Mechanismus, um den Beitrag jedes Chunks quantitativ zu bewerten, was deren Sparsity-Zuteilung bestimmt. Diese Strategie mit progressiver Sparsity-Steigerung ermöglicht es dem aktuellen Chunk, während der Generierung Vorwissen aus früheren Chunks zu übernehmen. Zusätzlich führen wir eine Hierarchical Sparse Attention ein, um informative historische und lokale Kontexte auf coarse-to-fine Weise zu erfassen. Eine solche zweistufige Maskenauswahlstrategie (d.h. auf Frame- und Blockebene) kann verschiedene Attention-Muster adaptiv verarbeiten. Umfangreiche Experimente belegen, dass unsere Methode bestehende Sparse-Attention-Ansätze in Qualität (z.B. 84,5 auf VBench) und Effizienz (z.B. 1,2–1,3-fache End-to-End-Beschleunigung) übertrifft. In Kombination mit FP8-Quantisierung und LightVAE erreicht Light Forcing auf einer RTX 5090 GPU eine weitere Beschleunigung um den Faktor 2,3 und 19,7 FPS. Der Code wird unter https://github.com/chengtao-lv/LightForcing veröffentlicht.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.
PDF22February 7, 2026