ChatPaper.aiChatPaper

Amostragem do que Importa: Amostragem Latente Adaptativa por Região para Transformadores de Difusão Acelerados

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

July 11, 2025
Autores: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI

Resumo

Transformers de difusão surgiram como uma alternativa aos modelos de difusão baseados em U-net para geração de imagens e vídeos de alta fidelidade, oferecendo escalabilidade superior. No entanto, sua pesada computação continua sendo um grande obstáculo para implantação no mundo real. Os métodos de aceleração existentes exploram principalmente a dimensão temporal, como a reutilização de recursos armazenados em cache ao longo das etapas de difusão. Aqui, propomos o *Region-Adaptive Latent Upsampling* (RALU), uma estrutura livre de treinamento que acelera a inferência ao longo da dimensão espacial. O RALU realiza amostragem de resolução mista em três estágios: 1) difusão latente de baixa resolução para capturar eficientemente a estrutura semântica global, 2) upsampling adaptativo por região em áreas específicas propensas a artefatos em resolução total, e 3) upsampling latente completo em resolução total para refinamento de detalhes. Para estabilizar as gerações durante as transições de resolução, utilizamos o reagendamento de níveis de ruído para adaptar o nível de ruído em diferentes resoluções. Nosso método reduz significativamente a computação enquanto preserva a qualidade da imagem, alcançando até 7,0 vezes de aceleração no FLUX e 3,0 vezes no Stable Diffusion 3 com degradação mínima. Além disso, o RALU é complementar a acelerações temporais existentes, como métodos de cache, podendo ser integrado de forma contínua para reduzir ainda mais a latência de inferência sem comprometer a qualidade da geração.
English
Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
PDF355July 23, 2025