Light Forcing: Accelerazione della Diffusione Video Autoregressiva tramite Attenzione Sparsa

Abstract

I modelli avanzati di generazione video autoregressiva (AR) hanno migliorato la fedeltà visiva e l'interattività, ma la complessità quadratica dell'attenzione rimane un collo di bottiglia primario per una distribuzione efficiente. Sebbene le soluzioni esistenti di attenzione sparsa abbiano mostrato risultati promettenti sui modelli bidirezionali, identifichiamo che l'applicazione di queste soluzioni ai modelli AR porta a un considerevole degrado delle prestazioni per due motivi: considerazione isolata della generazione dei chunk e utilizzo insufficiente del contesto informativo passato. Sulla base di queste osservazioni, proponiamo Light Forcing, la prima soluzione di attenzione sparsa specificamente progettata per i modelli di generazione video AR. Essa incorpora un meccanismo di Crescita Consapevole dei Chunk (Chunk-Aware Growth) per stimare quantitativamente il contributo di ciascun chunk, il quale determina la loro allocazione di sparsità. Questa strategia di aumento progressivo della sparsità consente al chunk corrente di ereditare la conoscenza precedente dai chunk generati in fase di produzione. Inoltre, introduciamo un'Attenzione Sparsa Gerarchica per catturare il contesto storico informativo e quello locale in maniera coarse-to-fine. Tale strategia di selezione della maschera a due livelli (cioè a livello di frame e di blocco) può gestire in modo adattivo diversi pattern di attenzione. Esperimenti estensivi dimostrano che il nostro metodo supera l'attenzione sparsa esistente in termini di qualità (ad esempio, 84.5 su VBench) ed efficienza (ad esempio, un'accelerazione end-to-end di 1.2~1.3 volte). In combinazione con la quantizzazione FP8 e LightVAE, Light Forcing raggiunge ulteriormente un'accelerazione di 2.3 volte e 19.7 FPS su una GPU RTX 5090. Il codice sarà rilasciato su https://github.com/chengtao-lv/LightForcing.

English

Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.

Light Forcing: Accelerazione della Diffusione Video Autoregressiva tramite Attenzione Sparsa

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Abstract

Support