Generazione Veloce di Video con Attenzione a Piastrelle Scorrevoli

Abstract

I Transformer di diffusione (DiTs) con attenzione completa 3D rappresentano lo stato dell'arte nella generazione di video, ma soffrono di costi computazionali proibitivi: quando si genera un video di 720P di soli 5 secondi, l'attenzione da sola richiede 800 secondi su un totale di 945 secondi di tempo di inferenza. Questo articolo introduce l'attenzione a piastrelle scorrevoli (STA) per affrontare questa sfida. STA sfrutta l'osservazione che i punteggi di attenzione nei modelli di diffusione video preaddestrati si concentrano principalmente all'interno di finestre 3D localizzate. Scorrendo e prestando attenzione alla regione spazio-temporale locale, STA elimina la ridondanza dell'attenzione completa. A differenza dell'attenzione tradizionale a finestra scorrevole basata su token (SWA), STA opera piastrella per piastrella con un design di finestra scorrevole innovativo consapevole dell'hardware, preservando l'espressività pur essendo efficiente in termini di hardware. Con ottimizzazioni a livello di kernel oculate, STA offre la prima implementazione efficiente di attenzione a finestra scorrevole 2D/3D, raggiungendo il 58,79% di MFU. In particolare, STA accelera l'attenzione di 2,8-17 volte rispetto a FlashAttention-2 (FA2) e di 1,6-10 volte rispetto a FlashAttention-3 (FA3). Sul principale DiT video, HunyuanVideo, STA riduce la latenza end-to-end da 945 secondi (FA3) a 685 secondi senza degradazione della qualità, senza richiedere alcun addestramento. Abilitando il fine-tuning, si riduce ulteriormente la latenza a 268 secondi con solo una diminuzione dello 0,09% su VBench.

English

Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art video generation, but suffer from prohibitive compute cost -- when generating just a 5-second 720P video, attention alone takes 800 out of 945 seconds of total inference time. This paper introduces sliding tile attention (STA) to address this challenge. STA leverages the observation that attention scores in pretrained video diffusion models predominantly concentrate within localized 3D windows. By sliding and attending over the local spatial-temporal region, STA eliminates redundancy from full attention. Unlike traditional token-wise sliding window attention (SWA), STA operates tile-by-tile with a novel hardware-aware sliding window design, preserving expressiveness while being hardware-efficient. With careful kernel-level optimizations, STA offers the first efficient 2D/3D sliding-window-like attention implementation, achieving 58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s without quality degradation, requiring no training. Enabling finetuning further lowers latency to 268s with only a 0.09% drop on VBench.

Generazione Veloce di Video con Attenzione a Piastrelle Scorrevoli

Fast Video Generation with Sliding Tile Attention

Abstract

Support