ChatPaper.aiChatPaper

Upsample Wat Er Toe Doet: Regio-Adaptieve Latente Sampling voor Versnelde Diffusie Transformers

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

July 11, 2025
Auteurs: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI

Samenvatting

Diffusie-transformers zijn naar voren gekomen als een alternatief voor U-net-gebaseerde diffusiemodellen voor het genereren van hoogwaardige afbeeldingen en video's, waarbij ze superieure schaalbaarheid bieden. Hun zware rekenkracht blijft echter een groot obstakel voor implementatie in de praktijk. Bestaande versnellingsmethoden maken vooral gebruik van de temporele dimensie, zoals het hergebruiken van gecachete features over diffusie-tijdstappen. Hier stellen we Region-Adaptive Latent Upsampling (RALU) voor, een trainingsvrij raamwerk dat de inferentie versnelt langs de ruimtelijke dimensie. RALU voert mixed-resolution sampling uit in drie fasen: 1) low-resolution denoising latent diffusie om efficiënt globale semantische structuren vast te leggen, 2) region-adaptieve upsampling op specifieke regio's die gevoelig zijn voor artefacten bij volledige resolutie, en 3) volledige latent upsampling bij volledige resolutie voor detailverfijning. Om generaties stabiel te houden tijdens resolutieovergangen, maken we gebruik van noise-timestep rescheduling om het ruisniveau aan te passen aan verschillende resoluties. Onze methode vermindert de rekenkracht aanzienlijk terwijl de beeldkwaliteit behouden blijft, met een versnelling tot 7,0 keer op FLUX en 3,0 keer op Stable Diffusion 3 met minimale kwaliteitsvermindering. Bovendien is RALU complementair aan bestaande temporele versnellingsmethoden zoals cachingmethoden, waardoor het naadloos kan worden geïntegreerd om de inferentie-latentie verder te verminderen zonder in te leveren op generatiekwaliteit.
English
Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
PDF365July 23, 2025