ChatPaper.aiChatPaper

Forçage Lumineux : Accélération de la Diffusion Vidéo Autoregressive par Attention Sparse

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

February 4, 2026
papers.authors: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI

papers.abstract

Les modèles autoregressifs (AR) avancés de génération vidéo ont amélioré la fidélité visuelle et l'interactivité, mais la complexité quadratique de l'attention reste un goulot d'étranglement majeur pour un déploiement efficace. Bien que les solutions d'attention creuse existantes aient montré des résultats prometteurs sur les modèles bidirectionnels, nous constatons que leur application aux modèles AR entraîne une dégradation significative des performances pour deux raisons : une considération isolée de la génération par tronçons et une utilisation insuffisante du contexte informationnel passé. Motivés par ces observations, nous proposons Light Forcing, la première solution d'attention creuse conçue spécifiquement pour les modèles AR de génération vidéo. Elle intègre un mécanisme de croissance consciente des tronçons (Chunk-Aware Growth) pour estimer quantitativement la contribution de chaque tronçon, ce qui détermine leur allocation de parcimonie. Cette stratégie d'augmentation progressive de la parcimonie permet au tronçon actuel d'hériter des connaissances antérieures des tronçons précédents durant la génération. De plus, nous introduisons une attention creuse hiérarchique pour capturer le contexte historique informatif et local de manière grossière à fine. Cette stratégie de sélection de masque à deux niveaux (c'est-à-dire au niveau de la trame et du bloc) peut gérer adaptativement divers patterns d'attention. Des expériences approfondies démontrent que notre méthode surpasse l'attention creuse existante en qualité (par exemple, 84,5 sur VBench) et en efficacité (par exemple, une accélération de bout en bout de 1,2 à 1,3 fois). Combinée à la quantification FP8 et à LightVAE, Light Forcing atteint en outre une accélération de 2,3 fois et 19,7 FPS sur une GPU RTX 5090. Le code sera publié à l'adresse https://github.com/chengtao-lv/LightForcing.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.
PDF22February 7, 2026