ChatPaper.aiChatPaper

Regio-Adaptieve Steekproef voor Diffusie-Transformers

Region-Adaptive Sampling for Diffusion Transformers

February 14, 2025
Auteurs: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
cs.AI

Samenvatting

Diffusiemodellen (DMs) zijn uitgegroeid tot de eerste keuze voor generatieve taken in diverse domeinen. Hun afhankelijkheid van meerdere sequentiële forward passes beperkt echter aanzienlijk de realtime prestaties. Eerdere versnellingsmethoden richtten zich voornamelijk op het verminderen van het aantal samplingstappen of het hergebruiken van tussenresultaten, maar slaagden er niet in om variaties tussen ruimtelijke regio's binnen de afbeelding te benutten vanwege de beperkingen van convolutionele U-Net-structuren. Door de flexibiliteit van Diffusion Transformers (DiTs) te benutten bij het verwerken van een variabel aantal tokens, introduceren we RAS, een nieuwe, trainingsvrije samplingstrategie die dynamisch verschillende samplingratio's toewijst aan regio's binnen een afbeelding op basis van de focus van het DiT-model. Onze belangrijkste observatie is dat tijdens elke samplingstap het model zich concentreert op semantisch betekenisvolle regio's, en dat deze focusgebieden een sterke continuïteit vertonen over opeenvolgende stappen. Met deze inzicht werkt RAS alleen de regio's bij die momenteel in focus zijn, terwijl andere regio's worden bijgewerkt met behulp van gecachte ruis uit de vorige stap. De focus van het model wordt bepaald op basis van de uitvoer van de voorgaande stap, waarbij we gebruikmaken van de temporele consistentie die we hebben waargenomen. We evalueren RAS op Stable Diffusion 3 en Lumina-Next-T2I, waarbij we respectievelijk snelheidsverbeteringen tot 2,36x en 2,51x behalen, met minimale achteruitgang in de generatiekwaliteit. Daarnaast toont een gebruikersstudie aan dat RAS vergelijkbare kwaliteiten biedt bij menselijke evaluatie, terwijl een snelheidsverbetering van 1,6x wordt bereikt. Onze aanpak zet een belangrijke stap naar efficiëntere diffusion transformers, waardoor hun potentieel voor realtime toepassingen wordt vergroot.
English
Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model's focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.

Summary

AI-Generated Summary

PDF543February 17, 2025