Upsample Wat Er Toe Doet: Regio-Adaptieve Latente Sampling voor Versnelde Diffusie Transformers
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
Auteurs: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
Samenvatting
Diffusie-transformers zijn naar voren gekomen als een alternatief voor U-net-gebaseerde diffusiemodellen voor het genereren van hoogwaardige afbeeldingen en video's, waarbij ze superieure schaalbaarheid bieden. Hun zware rekenkracht blijft echter een groot obstakel voor implementatie in de praktijk. Bestaande versnellingsmethoden maken vooral gebruik van de temporele dimensie, zoals het hergebruiken van gecachete features over diffusie-tijdstappen. Hier stellen we Region-Adaptive Latent Upsampling (RALU) voor, een trainingsvrij raamwerk dat de inferentie versnelt langs de ruimtelijke dimensie. RALU voert mixed-resolution sampling uit in drie fasen: 1) low-resolution denoising latent diffusie om efficiënt globale semantische structuren vast te leggen, 2) region-adaptieve upsampling op specifieke regio's die gevoelig zijn voor artefacten bij volledige resolutie, en 3) volledige latent upsampling bij volledige resolutie voor detailverfijning. Om generaties stabiel te houden tijdens resolutieovergangen, maken we gebruik van noise-timestep rescheduling om het ruisniveau aan te passen aan verschillende resoluties. Onze methode vermindert de rekenkracht aanzienlijk terwijl de beeldkwaliteit behouden blijft, met een versnelling tot 7,0 keer op FLUX en 3,0 keer op Stable Diffusion 3 met minimale kwaliteitsvermindering. Bovendien is RALU complementair aan bestaande temporele versnellingsmethoden zoals cachingmethoden, waardoor het naadloos kan worden geïntegreerd om de inferentie-latentie verder te verminderen zonder in te leveren op generatiekwaliteit.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.