Forzamiento Lumínico: Aceleración de Difusión de Video Autoregresiva mediante Atención Dispersa
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention
February 4, 2026
Autores: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI
Resumen
Los modelos avanzados de generación de vídeo autorregresivos (AR) han mejorado la fidelidad visual y la interactividad, pero la complejidad cuadrática de la atención sigue siendo un cuello de botella principal para el despliegue eficiente. Si bien las soluciones de atención dispersa existentes han mostrado resultados prometedores en modelos bidireccionales, identificamos que aplicar estas soluciones a modelos AR conduce a una degradación considerable del rendimiento por dos razones: la consideración aislada de la generación de fragmentos y la utilización insuficiente del contexto informativo pasado. Motivados por estas observaciones, proponemos Light Forcing, la primera solución de atención dispersa diseñada específicamente para modelos de generación de vídeo AR. Esta incorpora un mecanismo de Crecimiento Consciente del Fragmento (Chunk-Aware Growth) para estimar cuantitativamente la contribución de cada fragmento, lo que determina su asignación de dispersión. Esta estrategia de aumento progresivo de la dispersión permite que el fragmento actual herede el conocimiento previo de los fragmentos anteriores durante la generación. Adicionalmente, introducimos una Atención Dispersa Jerárquica para capturar el contexto histórico y local informativo de manera de grueso a fino. Esta estrategia de selección de máscara de dos niveles (es decir, a nivel de fotograma y de bloque) puede manejar de forma adaptativa diversos patrones de atención. Experimentos exhaustivos demuestran que nuestro método supera a la atención dispersa existente en calidad (por ejemplo, 84.5 en VBench) y eficiencia (por ejemplo, una aceleración de extremo a extremo de 1.2 a 1.3 veces). Combinado con la cuantificación FP8 y LightVAE, Light Forcing logra además una aceleración de 2.3 veces y 19.7 FPS en una GPU RTX 5090. El código se publicará en https://github.com/chengtao-lv/LightForcing.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.