ChatPaper.aiChatPaper

Forçamento de Luz: Acelerando a Difusão de Vídeo Autoregressiva via Atenção Esparsa

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

February 4, 2026
Autores: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI

Resumo

Os modelos avançados de geração de vídeo autorregressivos (AR) têm melhorado a fidelidade visual e a interatividade, mas a complexidade quadrática da atenção permanece um gargalo primário para uma implantação eficiente. Embora as soluções existentes de atenção esparsa tenham mostrado potencial em modelos bidirecionais, identificamos que a aplicação dessas soluções a modelos AR leva a uma degradação considerável de desempenho por duas razões: consideração isolada da geração de blocos (chunks) e utilização insuficiente do contexto informativo passado. Motivados por essas observações, propomos o Light Forcing, a primeira solução de atenção esparsa desenvolvida especificamente para modelos de geração de vídeo AR. Ele incorpora um mecanismo de Crescimento Consciente do Bloco (Chunk-Aware Growth) para estimar quantitativamente a contribuição de cada bloco, o que determina sua alocação de esparsidade. Esta estratégia progressiva de aumento da esparsidade permite que o bloco atual herde o conhecimento prévio dos blocos anteriores durante a geração. Adicionalmente, introduzimos uma Atenção Esparsa Hierárquica para capturar o contexto histórico informativo e o contexto local de maneira coarse-to-fine (do grossa para a fina). Esta estratégia de seleção de máscara de dois níveis (isto é, a nível de quadro e de bloco) pode lidar adaptativamente com diversos padrões de atenção. Experimentos extensivos demonstram que nosso método supera a atenção esparsa existente em qualidade (por exemplo, 84.5 no VBench) e eficiência (por exemplo, aceleração de 1.2 a 1.3 vezes no tempo end-to-end). Combinado com a quantização FP8 e o LightVAE, o Light Forcing alcança ainda uma aceleração de 2.3 vezes e 19.7 FPS em uma GPU RTX 5090. O código será liberado em https://github.com/chengtao-lv/LightForcing.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.
PDF23February 7, 2026