LVSA: Trainingsvrije Sparse Aandacht voor Lange Video Diffusie

Samenvatting

Dichte zelfaandacht is de reken- en kwaliteitsknelpunt van lange-videodiffusie-inferentie: de kosten groeien kwadratisch met de sequentielengte, en voorbij de trainingshorizon convergeert het model naar bijna-statische uitvoer, dat wil zeggen, 'bevroren' repetitieve video. De state-of-the-art-benaderingen zijn of te duur, bijvoorbeeld ze vereisen hertraining, of slagen er niet in om zowel prestatie- als kwaliteitsdoelen op een schaalbare manier te vervullen. Daartoe introduceren we Long Video Sparse Attention (LVSA), een trainingsvrije model-agnostische blok-spaarzame aandacht voor videodiffusietransformatoren die een gestructureerd vensterpatroon combineert met roterende globale ankers, waardoor de vaste-roostervertekening die langdurige temporele artefacten veroorzaakt, wordt verwijderd. LVSA, gecombineerd met een FlashInfer-kernel, vermindert de rekentijd met tot 3,17× op Wan 2.1 1.3B bij een 6×-horizon, 2,98× op Wan 2.1 14B bij een 6×-horizon en 3,33× op HunyuanVideo 1.5 bij een 1,5×-horizon, vergeleken met dichte aandacht. Naast het verminderen van rekenkracht, maakt LVSA generatie van HunyuanVideo 1.5 mogelijk bij een 2×-horizon, wat anders niet in het geheugen past op een enkele GPU. Bovendien biedt LVSA versnellingen tot 2,41× vergeleken met RIFLEx en 3,27× vergeleken met UltraViCo op Wan 2.1 1.3B. Om de toepasbaarheid op diverse platforms aan te tonen, passen we LVSA toe op NPU's en behalen we versnellingen tot 2,71× op Wan 2.2 A14B en 3,24× op Wan 2.1 1.3B vergeleken met dichte aandacht. Om de kwaliteit op een eerlijke manier te evalueren, introduceren we VQeval, een tool dat lusvormige videofouten correct scoort, die in state-of-the-art-evaluatoren zoals VBench-Long juist worden beloond. LVSA is kwaliteitsneutraal voor generatie op trainingshorizonlengte en kwaliteitspositief bij verlengde lengtes.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.