Mise à l'échelle de ce qui compte : Échantillonnage latent adaptatif aux régions pour l'accélération des Transformers de Diffusion

papers.abstract

Les transformateurs de diffusion sont apparus comme une alternative aux modèles de diffusion basés sur U-Net pour la génération d'images et de vidéos haute fidélité, offrant une meilleure scalabilité. Cependant, leur lourdeur computationnelle reste un obstacle majeur à leur déploiement dans des applications réelles. Les méthodes d'accélération existantes exploitent principalement la dimension temporelle, comme la réutilisation de caractéristiques mises en cache à travers les étapes de diffusion. Ici, nous proposons le suréchantillonnage latent adaptatif par région (RALU), un cadre sans apprentissage qui accélère l'inférence le long de la dimension spatiale. RALU effectue un échantillonnage à résolution mixte en trois étapes : 1) une diffusion latente de débruitage à basse résolution pour capturer efficacement la structure sémantique globale, 2) un suréchantillonnage adaptatif par région sur les zones sujettes à des artefacts en pleine résolution, et 3) un suréchantillonnage latent complet en pleine résolution pour l'affinement des détails. Pour stabiliser les générations lors des transitions de résolution, nous utilisons une reprogrammation du niveau de bruit en fonction du temps pour adapter le bruit à différentes résolutions. Notre méthode réduit significativement les calculs tout en préservant la qualité de l'image, permettant une accélération jusqu'à 7,0 fois sur FLUX et 3,0 fois sur Stable Diffusion 3 avec une dégradation minimale. De plus, RALU est complémentaire aux accélérations temporelles existantes, comme les méthodes de mise en cache, et peut donc être intégré de manière transparente pour réduire davantage la latence d'inférence sans compromettre la qualité de la génération.

English

Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.

Mise à l'échelle de ce qui compte : Échantillonnage latent adaptatif aux régions pour l'accélération des Transformers de Diffusion

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

papers.abstract

Support