ChatPaper.aiChatPaper

光強制:スパースアテンションによる自己回帰的ビデオ拡散の高速化

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

February 4, 2026
著者: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI

要旨

高度な自己回帰型動画生成モデルは視覚的忠実度と対話性が向上しているが、アテンションの二次計算量が効率的な展開における主要なボトルネックとなっている。既存の疎アテンション手法は双方向モデルで有望な成果を示しているが、これらを自己回帰型モデルに適用すると、チャンク生成の孤立した考慮と過去の情報豊富なコンテキストの不十分な活用という2つの理由から性能が大幅に低下する。この観察に基づき、我々は自己回帰型動画生成モデルに特化した初の疎アテンション手法であるLight Forcingを提案する。本手法は、各チャンクの寄与を定量的に評価し疎性配分を決定するChunk-Aware Growth機構を組み込んでいる。この漸進的疎性増加戦略により、現在のチャンクは生成過程中に先行チャンクの知識を継承できる。さらに、情報量の多い履歴コンテキストと局所コンテキストを粗密に捕捉する階層的疎アテンションを導入する。この2段階マスク選択戦略(フレームレベルとブロックレベル)により、多様なアテンションパターンに適応的に対応できる。大規模実験により、本手法が既存の疎アテンションよりも品質(VBenchで84.5点)と効率性(エンドツーエンドで1.2~1.3倍の高速化)の両面で優れることを実証した。FP8量子化とLightVAEとの組み合わせにより、RTX 5090 GPUで2.3倍の高速化と19.7 FPSを達成している。コードはhttps://github.com/chengtao-lv/LightForcing で公開予定である。
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.
PDF22February 7, 2026