LVSA : Attention éparse sans entraînement pour la diffusion de vidéos longues

Résumé

L'auto-attention dense constitue le goulot d'étranglement en calcul et en qualité de l'inférence de diffusion de vidéos longues : le coût croît quadratiquement avec la longueur des séquences, et au-delà de l'horizon d'entraînement, le modèle converge vers une sortie quasi statique, c'est-à-dire une vidéo répétitive « figée ». Les approches de pointe sont soit trop coûteuses, par exemple car elles nécessitent un réentraînement, soit ne parviennent pas à satisfaire à la fois les objectifs de performance et de qualité de manière évolutive. C'est pourquoi nous introduisons LVSA (Long Video Sparse Attention – Attention Éparse pour Vidéo Longue), une attention par blocs éparse, sans entraînement et indépendante du modèle pour les transformateurs de diffusion vidéo, qui combine un motif de fenêtre structuré avec des ancres globales rotatives, supprimant ainsi le biais de grille fixe à l'origine d'artefacts temporels à longue portée. Associée à un noyau FlashInfer, LVSA réduit le calcul jusqu'à 3,17× sur Wan 2.1 1,3B à un horizon 6×, 2,98× sur Wan 2.1 14B à un horizon 6×, et 3,33× sur HunyuanVideo 1,5 à un horizon 1,5×, par rapport à l'attention dense. Outre la réduction du calcul, LVSA permet la génération avec HunyuanVideo 1,5 à un horizon 2×, ce qui est autrement impossible en mémoire sur un seul GPU. De plus, LVSA offre des accélérations allant jusqu'à 2,41× par rapport à RIFLEx et 3,27× par rapport à UltraViCo sur Wan 2.1 1,3B. Pour démontrer son applicabilité sur diverses plateformes, nous appliquons LVSA sur des NPU et obtenons des accélérations allant jusqu'à 2,71× sur Wan 2.2 A14B et 3,24× sur Wan 2.1 1,3B par rapport à l'attention dense. Afin d'évaluer la qualité de manière équitable, nous introduisons VQeval, un outil qui évalue correctement les échecs de vidéos en boucle, lesquels sont au contraire récompensés par les évaluateurs de pointe comme VBench-Long. LVSA est neutre en termes de qualité pour les générations à la longueur de l'horizon d'entraînement et positif en termes de qualité pour les longueurs étendues.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.