LVSA: Разреженное внимание без обучения для диффузии длинных видео

Аннотация

Плотное самовнимание является узким местом по вычислительным ресурсам и качеству при инференсе диффузионных моделей для длинных видео: вычислительные затраты растут квадратично от длины последовательности, а за пределами тренировочного горизонта модель сходится к почти статичному выводу, то есть к «замороженному» повторяющемуся видео. Современные подходы либо слишком затратны (например, требуют переобучения), либо не позволяют одновременно достичь целей по производительности и качеству масштабируемым образом. В связи с этим мы представляем Разреженное Внимание для Длинных Видео (Long Video Sparse Attention, LVSA) — не требующее обучения, агностичное к модели блочно-разреженное внимание для диффузионных трансформеров видео, которое сочетает структурированный оконный шаблон с вращающимися глобальными якорями, тем самым устраняя смещение фиксированной сетки, вызывающее долговременные временные артефакты. LVSA в сочетании с ядром FlashInfer сокращает вычислительные затраты до 3,17x на модели Wan 2.1 1.3B при горизонте 6x, до 2,98x на Wan 2.1 14B при горизонте 6x и до 3,33x на HunyuanVideo 1.5 при горизонте 1,5x по сравнению с плотным вниманием. Помимо снижения вычислительных затрат, LVSA позволяет генерировать видео с помощью HunyuanVideo 1.5 при горизонте 2x, что иначе невозможно из-за нехватки памяти на одном GPU. Более того, LVSA обеспечивает ускорение до 2,41x по сравнению с RIFLEx и до 3,27x по сравнению с UltraViCo на Wan 2.1 1.3B. Для демонстрации применимости на различных платформах мы применяем LVSA на NPU и достигаем ускорения до 2,71x на Wan 2.2 A14B и до 3,24x на Wan 2.1 1.3B по сравнению с плотным вниманием. Для справедливой оценки качества мы представляем VQeval — инструмент, корректно оценивающий циклические сбои видео, которые, напротив, поощряются в современных средствах оценки, таких как VBench-Long. LVSA является нейтральным по качеству для генерации на длине тренировочного горизонта и положительным по качеству для расширенных длин.

English

Dense self-attention is the compute and quality bottleneck of long-video diffusion inference: cost grows quadratically with the sequence length, and beyond the training horizon the model converges to near-static output, that is, "frozen" repetitive video. State of the art approaches are either too costly, e.g., they require retraining, or fail to satisfy both performance and quality objectives in a scalable manner. To this end, we introduce Long Video Sparse Attention (LVSA), a training-free model-agnostic block-sparse attention for video diffusion transformers that combines a structured window pattern with rotating global anchors, thus removing the fixed-grid bias which causes long-range temporal artifacts. LVSA, combined with a FlashInfer kernel, reduces compute up to 3.17x on Wan 2.1 1.3B at a 6x horizon, 2.98x on Wan 2.1 14B at a 6x horizon, and 3.33x on HunyuanVideo 1.5 at a 1.5x horizon, compared to dense attention. Beyond reducing compute, LVSA enables HunyuanVideo 1.5 generation at a 2x horizon, which is otherwise out-of-memory on a single GPU. Moreover, LVSA provides speedups up to 2.41x compared to RIFLEx and 3.27x compared to UltraViCo on Wan 2.1 1.3B. To demonstrate applicability across diverse platforms, we apply LVSA on NPUs and achieve speedups up to 2.71x on Wan 2.2 A14B and 3.24x on Wan 2.1 1.3B compared to dense attention. To evaluate quality in a fair way, we introduce VQeval, a tool properly scoring loopy video failures, which instead are rewarded in state of the art evaluators like VBench-Long. LVSA is quality-neutral for generation at training horizon length and quality-positive at extended lengths.