ChatPaper.aiChatPaper

Un Piccolo Passo nel Latente, un Gigantesco Balzo per i Pixel: Adattatore Rapido di Upscale Latente per i Tuoi Modelli di Diffusione

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

November 13, 2025
Autori: Aleksandr Razin, Danil Kazantsev, Ilya Makarov
cs.AI

Abstract

I modelli di diffusione faticano a scalare oltre le risoluzioni di addestramento, poiché il campionamento diretto ad alta risoluzione è lento e costoso, mentre la super-risoluzione delle immagini (ISR) post-hoc introduce artefatti e ulteriore latenza operando dopo la decodifica. Presentiamo il Latent Upscaler Adapter (LUA), un modulo leggero che esegue la super-risoluzione direttamente sul codice latente del generatore prima del passo finale di decodifica VAE. LUA si integra come componente plug-and-play, senza richiedere modifiche al modello base o ulteriori fasi di diffusione, e consente la sintesi ad alta risoluzione attraverso un singolo passaggio in avanti nello spazio latente. Un backbone condiviso in stile Swin con teste pixel-shuffle specifiche per scala supporta fattori di 2x e 4x e rimane compatibile con le baseline di SR nello spazio delle immagini, raggiungendo una qualità percettiva comparabile con un tempo di decodifica e upscaling quasi 3 volte inferiore (aggiungendo solo +0,42 s per la generazione di 1024 px da 512 px, rispetto a 1,87 s per la SR nello spazio dei pixel utilizzando la stessa architettura SwinIR). Inoltre, LUA mostra una forte generalizzazione attraverso gli spazi latenti di diversi VAE, rendendolo facile da implementare senza bisogno di riaddestramento da zero per ogni nuovo decodificatore. Esperimenti estensivi dimostrano che LUA si avvicina alla fedeltà della generazione nativa ad alta risoluzione, offrendo un percorso pratico ed efficiente per la sintesi di immagini scalabili e ad alta fedeltà nelle moderne pipeline di diffusione.
English
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.
PDF483November 15, 2025