Быстрая генерация видео с помощью механизма скользящего внимания.
Fast Video Generation with Sliding Tile Attention
February 6, 2025
Авторы: Peiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang
cs.AI
Аннотация
Диффузионные трансформеры (DiTs) с трехмерным полным вниманием находятся на передовой в области генерации видео, но сталкиваются с запредельными вычислительными затратами - при создании всего 5-секундного видео разрешением 720P только внимание занимает 800 из 945 секунд общего времени вывода. В данной статье представлено скользящее плиточное внимание (STA) для решения этой проблемы. STA использует наблюдение, что оценки внимания в предварительно обученных моделях диффузии видео в основном сосредотачиваются в локализованных трехмерных окнах. Путем скольжения и обращения внимания на локальную пространственно-временную область STA устраняет избыточность полного внимания. В отличие от традиционного токен-мудрого скользящего окна внимания (SWA), STA работает плитка за плиткой с новым аппаратно-ориентированным дизайном скользящего окна, сохраняя выразительность при эффективном использовании аппаратных средств. Благодаря тщательной оптимизации на уровне ядра, STA предлагает первую эффективную реализацию скользящего окна 2D/3D-подобного внимания, достигая 58,79% MFU. Точнее, STA ускоряет внимание на 2,8-17 раз по сравнению с FlashAttention-2 (FA2) и на 1,6-10 раз по сравнению с FlashAttention-3 (FA3). На ведущем видео DiT, HunyuanVideo, STA сокращает время от начала до конца с 945 секунд (FA3) до 685 секунд без ухудшения качества, не требуя обучения. Включение донастройки дополнительно снижает задержку до 268 секунд с падением всего на 0,09% на VBench.
English
Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art
video generation, but suffer from prohibitive compute cost -- when generating
just a 5-second 720P video, attention alone takes 800 out of 945 seconds of
total inference time. This paper introduces sliding tile attention (STA) to
address this challenge. STA leverages the observation that attention scores in
pretrained video diffusion models predominantly concentrate within localized 3D
windows. By sliding and attending over the local spatial-temporal region, STA
eliminates redundancy from full attention. Unlike traditional token-wise
sliding window attention (SWA), STA operates tile-by-tile with a novel
hardware-aware sliding window design, preserving expressiveness while being
hardware-efficient. With careful kernel-level optimizations, STA offers the
first efficient 2D/3D sliding-window-like attention implementation, achieving
58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over
FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading
video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s
without quality degradation, requiring no training. Enabling finetuning further
lowers latency to 268s with only a 0.09% drop on VBench.Summary
AI-Generated Summary