Aumenta ciò che conta: Campionamento latente adattivo alla regione per l'accelerazione dei Diffusion Transformer

Abstract

I transformer di diffusione sono emersi come alternativa ai modelli di diffusione basati su U-net per la generazione di immagini e video ad alta fedeltà, offrendo una scalabilità superiore. Tuttavia, il loro elevato costo computazionale rimane un ostacolo significativo per il dispiegamento nel mondo reale. I metodi di accelerazione esistenti sfruttano principalmente la dimensione temporale, come il riutilizzo di feature memorizzate tra i passaggi temporali della diffusione. Qui proponiamo l'Upsampling Latente Adattivo alla Regione (RALU), un framework senza necessità di addestramento che accelera l'inferenza lungo la dimensione spaziale. RALU esegue un campionamento a risoluzione mista in tre fasi: 1) diffusione latente di denoising a bassa risoluzione per catturare in modo efficiente la struttura semantica globale, 2) upsampling adattivo alla regione su aree specifiche soggette ad artefatti a risoluzione completa, e 3) upsampling latente completo a risoluzione massima per il perfezionamento dei dettagli. Per stabilizzare le generazioni durante le transizioni di risoluzione, sfruttiamo una rischedulazione del livello di rumore per adattarlo alle diverse risoluzioni. Il nostro metodo riduce significativamente il carico computazionale preservando la qualità dell'immagine, ottenendo un incremento di velocità fino a 7,0 volte su FLUX e 3,0 volte su Stable Diffusion 3 con una degradazione minima. Inoltre, RALU è complementare alle accelerazioni temporali esistenti come i metodi di caching, e può quindi essere integrato senza soluzione di continuità per ridurre ulteriormente la latenza di inferenza senza compromettere la qualità della generazione.

English

Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.

Aumenta ciò che conta: Campionamento latente adattivo alla regione per l'accelerazione dei Diffusion Transformer

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

Abstract

Support