Aumenta ciò che conta: Campionamento latente adattivo alla regione per l'accelerazione dei Diffusion Transformer
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
Autori: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
Abstract
I transformer di diffusione sono emersi come alternativa ai modelli di diffusione basati su U-net per la generazione di immagini e video ad alta fedeltà, offrendo una scalabilità superiore. Tuttavia, il loro elevato costo computazionale rimane un ostacolo significativo per il dispiegamento nel mondo reale. I metodi di accelerazione esistenti sfruttano principalmente la dimensione temporale, come il riutilizzo di feature memorizzate tra i passaggi temporali della diffusione. Qui proponiamo l'Upsampling Latente Adattivo alla Regione (RALU), un framework senza necessità di addestramento che accelera l'inferenza lungo la dimensione spaziale. RALU esegue un campionamento a risoluzione mista in tre fasi: 1) diffusione latente di denoising a bassa risoluzione per catturare in modo efficiente la struttura semantica globale, 2) upsampling adattivo alla regione su aree specifiche soggette ad artefatti a risoluzione completa, e 3) upsampling latente completo a risoluzione massima per il perfezionamento dei dettagli. Per stabilizzare le generazioni durante le transizioni di risoluzione, sfruttiamo una rischedulazione del livello di rumore per adattarlo alle diverse risoluzioni. Il nostro metodo riduce significativamente il carico computazionale preservando la qualità dell'immagine, ottenendo un incremento di velocità fino a 7,0 volte su FLUX e 3,0 volte su Stable Diffusion 3 con una degradazione minima. Inoltre, RALU è complementare alle accelerazioni temporali esistenti come i metodi di caching, e può quindi essere integrato senza soluzione di continuità per ridurre ulteriormente la latenza di inferenza senza compromettere la qualità della generazione.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.