Regio-Adaptieve Steekproef voor Diffusie-Transformers
Region-Adaptive Sampling for Diffusion Transformers
February 14, 2025
Auteurs: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
cs.AI
Samenvatting
Diffusiemodellen (DMs) zijn uitgegroeid tot de eerste keuze voor generatieve taken in diverse domeinen. Hun afhankelijkheid van meerdere sequentiële forward passes beperkt echter aanzienlijk de realtime prestaties. Eerdere versnellingsmethoden richtten zich voornamelijk op het verminderen van het aantal samplingstappen of het hergebruiken van tussenresultaten, maar slaagden er niet in om variaties tussen ruimtelijke regio's binnen de afbeelding te benutten vanwege de beperkingen van convolutionele U-Net-structuren. Door de flexibiliteit van Diffusion Transformers (DiTs) te benutten bij het verwerken van een variabel aantal tokens, introduceren we RAS, een nieuwe, trainingsvrije samplingstrategie die dynamisch verschillende samplingratio's toewijst aan regio's binnen een afbeelding op basis van de focus van het DiT-model. Onze belangrijkste observatie is dat tijdens elke samplingstap het model zich concentreert op semantisch betekenisvolle regio's, en dat deze focusgebieden een sterke continuïteit vertonen over opeenvolgende stappen. Met deze inzicht werkt RAS alleen de regio's bij die momenteel in focus zijn, terwijl andere regio's worden bijgewerkt met behulp van gecachte ruis uit de vorige stap. De focus van het model wordt bepaald op basis van de uitvoer van de voorgaande stap, waarbij we gebruikmaken van de temporele consistentie die we hebben waargenomen. We evalueren RAS op Stable Diffusion 3 en Lumina-Next-T2I, waarbij we respectievelijk snelheidsverbeteringen tot 2,36x en 2,51x behalen, met minimale achteruitgang in de generatiekwaliteit. Daarnaast toont een gebruikersstudie aan dat RAS vergelijkbare kwaliteiten biedt bij menselijke evaluatie, terwijl een snelheidsverbetering van 1,6x wordt bereikt. Onze aanpak zet een belangrijke stap naar efficiëntere diffusion transformers, waardoor hun potentieel voor realtime toepassingen wordt vergroot.
English
Diffusion models (DMs) have become the leading choice for generative tasks
across diverse domains. However, their reliance on multiple sequential forward
passes significantly limits real-time performance. Previous acceleration
methods have primarily focused on reducing the number of sampling steps or
reusing intermediate results, failing to leverage variations across spatial
regions within the image due to the constraints of convolutional U-Net
structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in
handling variable number of tokens, we introduce RAS, a novel, training-free
sampling strategy that dynamically assigns different sampling ratios to regions
within an image based on the focus of the DiT model. Our key observation is
that during each sampling step, the model concentrates on semantically
meaningful regions, and these areas of focus exhibit strong continuity across
consecutive steps. Leveraging this insight, RAS updates only the regions
currently in focus, while other regions are updated using cached noise from the
previous step. The model's focus is determined based on the output from the
preceding step, capitalizing on the temporal consistency we observed. We
evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up
to 2.36x and 2.51x, respectively, with minimal degradation in generation
quality. Additionally, a user study reveals that RAS delivers comparable
qualities under human evaluation while achieving a 1.6x speedup. Our approach
makes a significant step towards more efficient diffusion transformers,
enhancing their potential for real-time applications.Summary
AI-Generated Summary