Snelle videogeneratie met glijdende tegel aandacht.
Fast Video Generation with Sliding Tile Attention
February 6, 2025
Auteurs: Peiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang
cs.AI
Samenvatting
Diffusie Transformatoren (DiTs) met 3D volledige aandachtsstaat-van-de-kunst videoproductie, maar lijden onder een onoverkomelijke rekenefficiëntie - bij het genereren van slechts een 5-seconden 720P video, neemt de aandacht alleen al 800 van de 945 seconden van de totale inferentietijd in beslag. Dit artikel introduceert glijdende tegel aandacht (STA) om deze uitdaging aan te pakken. STA maakt gebruik van de observatie dat aandachtscores in vooraf getrainde video diffusiemodellen voornamelijk geconcentreerd zijn binnen gelokaliseerde 3D-vensters. Door te schuiven en aandacht te besteden aan de lokale ruimtelijk-temporele regio, elimineert STA redundantie van volledige aandacht. In tegenstelling tot traditionele token-gebaseerde schuifvenster aandacht (SWA), werkt STA tegel-voor-tegel met een nieuw hardwarebewust schuifvensterontwerp, waarbij expressiviteit behouden blijft terwijl het hardware-efficiënt is. Met zorgvuldige optimalisaties op kernelniveau biedt STA de eerste efficiënte 2D/3D schuifvenster-achtige aandachtimplementatie, met een bereik van 58,79% MFU. Precies versnelt STA de aandacht met 2,8-17x ten opzichte van FlashAttention-2 (FA2) en 1,6-10x ten opzichte van FlashAttention-3 (FA3). Op de toonaangevende video DiT, HunyuanVideo, vermindert STA de end-to-end latentie van 945s (FA3) tot 685s zonder kwaliteitsverlies, zonder training te vereisen. Door finetuning mogelijk te maken, wordt de latentie verder verlaagd tot 268s met slechts een daling van 0,09% op VBench.
English
Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art
video generation, but suffer from prohibitive compute cost -- when generating
just a 5-second 720P video, attention alone takes 800 out of 945 seconds of
total inference time. This paper introduces sliding tile attention (STA) to
address this challenge. STA leverages the observation that attention scores in
pretrained video diffusion models predominantly concentrate within localized 3D
windows. By sliding and attending over the local spatial-temporal region, STA
eliminates redundancy from full attention. Unlike traditional token-wise
sliding window attention (SWA), STA operates tile-by-tile with a novel
hardware-aware sliding window design, preserving expressiveness while being
hardware-efficient. With careful kernel-level optimizations, STA offers the
first efficient 2D/3D sliding-window-like attention implementation, achieving
58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over
FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading
video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s
without quality degradation, requiring no training. Enabling finetuning further
lowers latency to 268s with only a 0.09% drop on VBench.Summary
AI-Generated Summary