LVSA: Atenção Esparsa Sem Treinamento para Difusão de Vídeos Longos

Resumo

A auto-atenção densa é o gargalo computacional e de qualidade da inferência de difusão de vídeos longos: o custo cresce quadraticamente com o comprimento da sequência e, além do horizonte de treinamento, o modelo converge para uma saída quase estática, ou seja, um vídeo repetitivo "congelado". As abordagens de ponta são muito caras, por exemplo, requerem retreinamento, ou não conseguem atender aos objetivos de desempenho e qualidade de forma escalável. Para isso, apresentamos a Atenção Esparsa de Vídeo Longo (do inglês, *Long Video Sparse Attention*, LVSA), uma atenção bloco-esparsa independente de modelo e sem necessidade de treinamento para transformadores de difusão de vídeo, que combina um padrão de janela estruturado com âncoras globais rotativas, eliminando assim o viés de grade fixa que causa artefatos temporais de longo alcance. A LVSA, combinada com um kernel FlashInfer, reduz o custo computacional em até 3,17x no Wan 2.1 1.3B em um horizonte 6x, 2,98x no Wan 2.1 14B em um horizonte 6x e 3,33x no HunyuanVideo 1.5 em um horizonte 1,5x, em comparação com a atenção densa. Além de reduzir o custo computacional, a LVSA permite a geração do HunyuanVideo 1.5 em um horizonte 2x, o que, de outra forma, extrapolaria a memória em uma única GPU. Ademais, a LVSA proporciona acelerações de até 2,41x em comparação com o RIFLEx e 3,27x em comparação com o UltraViCo no Wan 2.1 1.3B. Para demonstrar a aplicabilidade em diversas plataformas, aplicamos a LVSA em NPUs e obtivemos acelerações de até 2,71x no Wan 2.2 A14B e 3,24x no Wan 2.1 1.3B em comparação com a atenção densa. Para avaliar a qualidade de forma justa, apresentamos o VQeval, uma ferramenta que pontua adequadamente falhas de vídeo repetitivas (*loopy*), as quais, em contrapartida, são recompensadas em avaliadores de ponta como o VBench-Long. A LVSA é neutra em termos de qualidade para geração no comprimento do horizonte de treinamento e positiva em termos de qualidade para comprimentos estendidos.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.