Génération rapide de vidéos avec une attention de tuile glissante.
Fast Video Generation with Sliding Tile Attention
February 6, 2025
Auteurs: Peiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang
cs.AI
Résumé
Les Transformateurs de Diffusion (DiTs) avec une attention complète en 3D sont à la pointe de la génération vidéo, mais souffrent d'un coût de calcul prohibitif - lors de la génération d'une vidéo de 5 secondes en 720P, l'attention seule prend 800 secondes sur un temps total d'inférence de 945 secondes. Cet article présente l'attention par tuile glissante (STA) pour relever ce défi. STA exploite l'observation selon laquelle les scores d'attention dans les modèles de diffusion vidéo pré-entraînés se concentrent principalement dans des fenêtres 3D localisées. En faisant glisser et en se concentrant sur la région spatiale-temporelle locale, STA élimine la redondance de l'attention complète. Contrairement à l'attention traditionnelle par fenêtre glissante basée sur les jetons (SWA), STA fonctionne tuile par tuile avec une conception de fenêtre glissante novatrice prenant en compte le matériel, préservant l'expressivité tout en étant efficace sur le plan matériel. Grâce à des optimisations minutieuses au niveau du noyau, STA propose la première implémentation efficace d'une attention par fenêtre glissante 2D/3D, atteignant 58,79% de MFU. Plus précisément, STA accélère l'attention de 2,8 à 17 fois par rapport à FlashAttention-2 (FA2) et de 1,6 à 10 fois par rapport à FlashAttention-3 (FA3). Sur le DiT vidéo de pointe, HunyuanVideo, STA réduit la latence de bout en bout de 945 secondes (FA3) à 685 secondes sans dégradation de la qualité, sans nécessiter d'entraînement. L'activation du fine-tuning réduit encore la latence à 268 secondes avec seulement une baisse de 0,09% sur VBench.
English
Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art
video generation, but suffer from prohibitive compute cost -- when generating
just a 5-second 720P video, attention alone takes 800 out of 945 seconds of
total inference time. This paper introduces sliding tile attention (STA) to
address this challenge. STA leverages the observation that attention scores in
pretrained video diffusion models predominantly concentrate within localized 3D
windows. By sliding and attending over the local spatial-temporal region, STA
eliminates redundancy from full attention. Unlike traditional token-wise
sliding window attention (SWA), STA operates tile-by-tile with a novel
hardware-aware sliding window design, preserving expressiveness while being
hardware-efficient. With careful kernel-level optimizations, STA offers the
first efficient 2D/3D sliding-window-like attention implementation, achieving
58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over
FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading
video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s
without quality degradation, requiring no training. Enabling finetuning further
lowers latency to 268s with only a 0.09% drop on VBench.Summary
AI-Generated Summary