Amostragem do que Importa: Amostragem Latente Adaptativa por Região para Transformadores de Difusão Acelerados
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
Autores: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
Resumo
Transformers de difusão surgiram como uma alternativa aos modelos de difusão baseados em U-net para geração de imagens e vídeos de alta fidelidade, oferecendo escalabilidade superior. No entanto, sua pesada computação continua sendo um grande obstáculo para implantação no mundo real. Os métodos de aceleração existentes exploram principalmente a dimensão temporal, como a reutilização de recursos armazenados em cache ao longo das etapas de difusão. Aqui, propomos o *Region-Adaptive Latent Upsampling* (RALU), uma estrutura livre de treinamento que acelera a inferência ao longo da dimensão espacial. O RALU realiza amostragem de resolução mista em três estágios: 1) difusão latente de baixa resolução para capturar eficientemente a estrutura semântica global, 2) upsampling adaptativo por região em áreas específicas propensas a artefatos em resolução total, e 3) upsampling latente completo em resolução total para refinamento de detalhes. Para estabilizar as gerações durante as transições de resolução, utilizamos o reagendamento de níveis de ruído para adaptar o nível de ruído em diferentes resoluções. Nosso método reduz significativamente a computação enquanto preserva a qualidade da imagem, alcançando até 7,0 vezes de aceleração no FLUX e 3,0 vezes no Stable Diffusion 3 com degradação mínima. Além disso, o RALU é complementar a acelerações temporais existentes, como métodos de cache, podendo ser integrado de forma contínua para reduzir ainda mais a latência de inferência sem comprometer a qualidade da geração.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.