LVSA: Trainingsfreie Sparse Attention für die Diffusion langer Videos

Zusammenfassung

Dichte Selbstaufmerksamkeit ist der Rechen- und Qualitätsengpass bei der Inferenz von Langvideo-Diffusion: Die Kosten wachsen quadratisch mit der Sequenzlänge, und jenseits des Trainingshorizonts konvergiert das Modell zu einer nahezu statischen Ausgabe, also zu einem „eingefrorenen“ sich wiederholenden Video. Ansätze nach dem Stand der Technik sind entweder zu kostspielig, z. B. erfordern sie ein Nachtraining, oder sie erfüllen weder Leistungs- noch Qualitätsziele in skalierbarer Weise. Zu diesem Zweck führen wir Long Video Sparse Attention (LVSA) ein, eine trainingsfreie, modellunabhängige blockweise dünnbesetzte Aufmerksamkeit für Video-Diffusion-Transformer, die ein strukturiertes Fenstermuster mit rotierenden globalen Ankern kombiniert und so den festen Gitterbias beseitigt, der zeitliche Artefakte über große Entfernungen verursacht. LVSA reduziert in Kombination mit einem FlashInfer-Kernel den Rechenaufwand im Vergleich zu dichter Aufmerksamkeit um bis zu 3,17x bei Wan 2.1 1.3B bei einem 6-fachen Horizont, um 2,98x bei Wan 2.1 14B bei einem 6-fachen Horizont und um 3,33x bei HunyuanVideo 1.5 bei einem 1,5-fachen Horizont. Über die Reduzierung des Rechenaufwands hinaus ermöglicht LVSA die Generierung von HunyuanVideo 1.5 bei einem 2-fachen Horizont, was ansonsten auf einer einzelnen GPU zu einem Speicherüberlauf führen würde. Darüber hinaus bietet LVSA Beschleunigungen von bis zu 2,41x im Vergleich zu RIFLEx und 3,27x im Vergleich zu UltraViCo auf Wan 2.1 1.3B. Um die Anwendbarkeit auf verschiedenen Plattformen zu demonstrieren, wenden wir LVSA auf NPUs an und erzielen im Vergleich zu dichter Aufmerksamkeit Beschleunigungen von bis zu 2,71x bei Wan 2.2 A14B und 3,24x bei Wan 2.1 1.3B. Um die Qualität fair zu bewerten, führen wir VQeval ein, ein Werkzeug, das sich wiederholende Videofehler korrekt bewertet, die stattdessen in Evaluatoren nach dem Stand der Technik wie VBench-Long belohnt werden. LVSA ist qualitätsneutral bei Generierung mit Trainingshorizontlänge und qualitätssteigernd bei verlängerten Längen.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.