Muestreo ascendente de lo que importa: Muestreo latente adaptativo por regiones para la aceleración de transformadores de difusión
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
Autores: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
Resumen
Los transformadores de difusión han surgido como una alternativa a los modelos de difusión basados en U-net para la generación de imágenes y videos de alta fidelidad, ofreciendo una escalabilidad superior. Sin embargo, su elevado costo computacional sigue siendo un obstáculo importante para su implementación en el mundo real. Los métodos de aceleración existentes explotan principalmente la dimensión temporal, como la reutilización de características almacenadas en caché a lo largo de los pasos de difusión. Aquí, proponemos el Muestreo Latente Adaptativo por Regiones (RALU, por sus siglas en inglés), un marco de trabajo sin entrenamiento que acelera la inferencia en la dimensión espacial. RALU realiza un muestreo de resolución mixta en tres etapas: 1) difusión latente de bajo ruido a baja resolución para capturar eficientemente la estructura semántica global, 2) muestreo adaptativo por regiones en áreas propensas a artefactos a resolución completa, y 3) muestreo latente completo a resolución máxima para el refinamiento de detalles. Para estabilizar las generaciones durante las transiciones de resolución, aprovechamos la reprogramación del nivel de ruido en función del tiempo para adaptar el nivel de ruido a diferentes resoluciones. Nuestro método reduce significativamente el costo computacional mientras preserva la calidad de la imagen, logrando una aceleración de hasta 7.0 veces en FLUX y 3.0 veces en Stable Diffusion 3 con una degradación mínima. Además, RALU es complementario a las aceleraciones temporales existentes, como los métodos de almacenamiento en caché, por lo que puede integrarse sin problemas para reducir aún más la latencia de inferencia sin comprometer la calidad de la generación.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.