Generazione Veloce di Video con Attenzione a Piastrelle Scorrevoli
Fast Video Generation with Sliding Tile Attention
February 6, 2025
Autori: Peiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang
cs.AI
Abstract
I Transformer di diffusione (DiTs) con attenzione completa 3D rappresentano lo stato dell'arte nella generazione di video, ma soffrono di costi computazionali proibitivi: quando si genera un video di 720P di soli 5 secondi, l'attenzione da sola richiede 800 secondi su un totale di 945 secondi di tempo di inferenza. Questo articolo introduce l'attenzione a piastrelle scorrevoli (STA) per affrontare questa sfida. STA sfrutta l'osservazione che i punteggi di attenzione nei modelli di diffusione video preaddestrati si concentrano principalmente all'interno di finestre 3D localizzate. Scorrendo e prestando attenzione alla regione spazio-temporale locale, STA elimina la ridondanza dell'attenzione completa. A differenza dell'attenzione tradizionale a finestra scorrevole basata su token (SWA), STA opera piastrella per piastrella con un design di finestra scorrevole innovativo consapevole dell'hardware, preservando l'espressività pur essendo efficiente in termini di hardware. Con ottimizzazioni a livello di kernel oculate, STA offre la prima implementazione efficiente di attenzione a finestra scorrevole 2D/3D, raggiungendo il 58,79% di MFU. In particolare, STA accelera l'attenzione di 2,8-17 volte rispetto a FlashAttention-2 (FA2) e di 1,6-10 volte rispetto a FlashAttention-3 (FA3). Sul principale DiT video, HunyuanVideo, STA riduce la latenza end-to-end da 945 secondi (FA3) a 685 secondi senza degradazione della qualità, senza richiedere alcun addestramento. Abilitando il fine-tuning, si riduce ulteriormente la latenza a 268 secondi con solo una diminuzione dello 0,09% su VBench.
English
Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art
video generation, but suffer from prohibitive compute cost -- when generating
just a 5-second 720P video, attention alone takes 800 out of 945 seconds of
total inference time. This paper introduces sliding tile attention (STA) to
address this challenge. STA leverages the observation that attention scores in
pretrained video diffusion models predominantly concentrate within localized 3D
windows. By sliding and attending over the local spatial-temporal region, STA
eliminates redundancy from full attention. Unlike traditional token-wise
sliding window attention (SWA), STA operates tile-by-tile with a novel
hardware-aware sliding window design, preserving expressiveness while being
hardware-efficient. With careful kernel-level optimizations, STA offers the
first efficient 2D/3D sliding-window-like attention implementation, achieving
58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over
FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading
video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s
without quality degradation, requiring no training. Enabling finetuning further
lowers latency to 268s with only a 0.09% drop on VBench.