Mise à l'échelle de ce qui compte : Échantillonnage latent adaptatif aux régions pour l'accélération des Transformers de Diffusion
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
papers.authors: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
papers.abstract
Les transformateurs de diffusion sont apparus comme une alternative aux modèles de diffusion basés sur U-Net pour la génération d'images et de vidéos haute fidélité, offrant une meilleure scalabilité. Cependant, leur lourdeur computationnelle reste un obstacle majeur à leur déploiement dans des applications réelles. Les méthodes d'accélération existantes exploitent principalement la dimension temporelle, comme la réutilisation de caractéristiques mises en cache à travers les étapes de diffusion. Ici, nous proposons le suréchantillonnage latent adaptatif par région (RALU), un cadre sans apprentissage qui accélère l'inférence le long de la dimension spatiale. RALU effectue un échantillonnage à résolution mixte en trois étapes : 1) une diffusion latente de débruitage à basse résolution pour capturer efficacement la structure sémantique globale, 2) un suréchantillonnage adaptatif par région sur les zones sujettes à des artefacts en pleine résolution, et 3) un suréchantillonnage latent complet en pleine résolution pour l'affinement des détails. Pour stabiliser les générations lors des transitions de résolution, nous utilisons une reprogrammation du niveau de bruit en fonction du temps pour adapter le bruit à différentes résolutions. Notre méthode réduit significativement les calculs tout en préservant la qualité de l'image, permettant une accélération jusqu'à 7,0 fois sur FLUX et 3,0 fois sur Stable Diffusion 3 avec une dégradation minimale. De plus, RALU est complémentaire aux accélérations temporelles existantes, comme les méthodes de mise en cache, et peut donc être intégré de manière transparente pour réduire davantage la latence d'inférence sans compromettre la qualité de la génération.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.