Muestreo ascendente de lo que importa: Muestreo latente adaptativo por regiones para la aceleración de transformadores de difusión

Resumen

Los transformadores de difusión han surgido como una alternativa a los modelos de difusión basados en U-net para la generación de imágenes y videos de alta fidelidad, ofreciendo una escalabilidad superior. Sin embargo, su elevado costo computacional sigue siendo un obstáculo importante para su implementación en el mundo real. Los métodos de aceleración existentes explotan principalmente la dimensión temporal, como la reutilización de características almacenadas en caché a lo largo de los pasos de difusión. Aquí, proponemos el Muestreo Latente Adaptativo por Regiones (RALU, por sus siglas en inglés), un marco de trabajo sin entrenamiento que acelera la inferencia en la dimensión espacial. RALU realiza un muestreo de resolución mixta en tres etapas: 1) difusión latente de bajo ruido a baja resolución para capturar eficientemente la estructura semántica global, 2) muestreo adaptativo por regiones en áreas propensas a artefactos a resolución completa, y 3) muestreo latente completo a resolución máxima para el refinamiento de detalles. Para estabilizar las generaciones durante las transiciones de resolución, aprovechamos la reprogramación del nivel de ruido en función del tiempo para adaptar el nivel de ruido a diferentes resoluciones. Nuestro método reduce significativamente el costo computacional mientras preserva la calidad de la imagen, logrando una aceleración de hasta 7.0 veces en FLUX y 3.0 veces en Stable Diffusion 3 con una degradación mínima. Además, RALU es complementario a las aceleraciones temporales existentes, como los métodos de almacenamiento en caché, por lo que puede integrarse sin problemas para reducir aún más la latencia de inferencia sin comprometer la calidad de la generación.

English

Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.

Muestreo ascendente de lo que importa: Muestreo latente adaptativo por regiones para la aceleración de transformadores de difusión

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

Resumen

Support