LVSA: Atención Dispersa sin Entrenamiento para Difusión de Videos Largos

Resumen

La auto-atención densa constituye el cuello de botella computacional y de calidad en la inferencia de difusión de video de larga duración: el costo crece cuadráticamente con la longitud de la secuencia y, más allá del horizonte de entrenamiento, el modelo converge a una salida casi estática, es decir, un video repetitivo y "congelado". Los enfoques de vanguardia son demasiado costosos, por ejemplo, requieren reentrenamiento, o no logran satisfacer de manera escalable tanto los objetivos de rendimiento como los de calidad. Con este fin, presentamos LVSA (Long Video Sparse Attention), una atención de bloques dispersos para transformers de difusión de video, independiente del modelo y sin necesidad de entrenamiento, que combina un patrón de ventana estructurado con anclajes globales rotativos, eliminando así el sesgo de cuadrícula fija que causa artefactos temporales de largo alcance. LVSA, combinado con un kernel de FlashInfer, reduce el cómputo hasta 3.17× en Wan 2.1 1.3B con un horizonte 6×, 2.98× en Wan 2.1 14B con un horizonte 6× y 3.33× en HunyuanVideo 1.5 con un horizonte 1.5×, en comparación con la atención densa. Más allá de reducir el cómputo, LVSA permite la generación de HunyuanVideo 1.5 con un horizonte 2×, lo cual de otro modo resulta imposible por falta de memoria en una sola GPU. Además, LVSA proporciona aceleraciones de hasta 2.41× en comparación con RIFLEx y 3.27× en comparación con UltraViCo en Wan 2.1 1.3B. Para demostrar su aplicabilidad en diversas plataformas, aplicamos LVSA en NPU y logramos aceleraciones de hasta 2.71× en Wan 2.2 A14B y 3.24× en Wan 2.1 1.3B en comparación con la atención densa. Para evaluar la calidad de manera justa, introducimos VQeval, una herramienta que puntúa adecuadamente los fallos de video en bucle, los cuales, en cambio, son recompensados por evaluadores de última generación como VBench-Long. LVSA es neutro en calidad para generación con el horizonte de entrenamiento y positivo en calidad para horizontes extendidos.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.