ChatPaper.aiChatPaper

Принудительное осветление: ускорение авторегрессионной видеодиффузии с помощью разреженного внимания

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

February 4, 2026
Авторы: Chengtao Lv, Yumeng Shi, Yushi Huang, Ruihao Gong, Shen Ren, Wenya Wang
cs.AI

Аннотация

Современные авторегрессионные (AR) модели генерации видео достигли значительного прогресса в визуальном качестве и интерактивности, однако квадратичная сложность механизма внимания остается основным препятствием для их эффективного развертывания. Хотя существующие решения с разреженным вниманием показали перспективность в двунаправленных моделях, мы выявили, что их применение к AR-моделям приводит к значительной деградации производительности по двум причинам: изолированное рассмотрение генерации фрагментов и недостаточное использование информативного контекста из прошлого. Мотивированные этими наблюдениями, мы предлагаем Light Forcing — первое решение с разреженным вниманием, специально разработанное для AR-моделей генерации видео. Оно включает механизм Chunk-Aware Growth для количественной оценки вклада каждого фрагмента, что определяет распределение их разреженности. Эта стратегия прогрессивного увеличения разреженности позволяет текущему фрагменту наследовать знания из предыдущих фрагментов в процессе генерации. Дополнительно мы представляем Иерархическое Разреженное Внимание для захвата информативного исторического и локального контекста по принципу "от грубого к тонкому". Такая двухуровневая стратегия выбора масок (на уровне кадров и блоков) позволяет адаптивно обрабатывать разнообразные паттерны внимания. Многочисленные эксперименты демонстрируют, что наш метод превосходит существующие подходы к разреженному вниманию как по качеству (например, 84.5 балла на VBench), так и по эффективности (например, ускорение end-to-end в 1.2–1.3 раза). В сочетании с FP8-квантованием и LightVAE, Light Forcing дополнительно достигает ускорения в 2.3 раза и скорости обработки 19.7 кадров/с на GPU RTX 5090. Код будет доступен по адресу https://github.com/chengtao-lv/LightForcing.
English
Advanced autoregressive (AR) video generation models have improved visual fidelity and interactivity, but the quadratic complexity of attention remains a primary bottleneck for efficient deployment. While existing sparse attention solutions have shown promise on bidirectional models, we identify that applying these solutions to AR models leads to considerable performance degradation for two reasons: isolated consideration of chunk generation and insufficient utilization of past informative context. Motivated by these observations, we propose Light Forcing, the first sparse attention solution tailored for AR video generation models. It incorporates a Chunk-Aware Growth mechanism to quantitatively estimate the contribution of each chunk, which determines their sparsity allocation. This progressive sparsity increase strategy enables the current chunk to inherit prior knowledge in earlier chunks during generation. Additionally, we introduce a Hierarchical Sparse Attention to capture informative historical and local context in a coarse-to-fine manner. Such two-level mask selection strategy (\ie, frame and block level) can adaptively handle diverse attention patterns. Extensive experiments demonstrate that our method outperforms existing sparse attention in quality (\eg, 84.5 on VBench) and efficiency (\eg, 1.2{sim}1.3times end-to-end speedup). Combined with FP8 quantization and LightVAE, Light Forcing further achieves a 2.3times speedup and 19.7\,FPS on an RTX~5090 GPU. Code will be released at https://github.com/chengtao-lv/LightForcing{https://github.com/chengtao-lv/LightForcing}.
PDF22February 7, 2026