Um Pequeno Passo no Latente, Um Grande Salto para os Pixels: Adaptador Rápido de Upscale Latente para Seus Modelos de Difusão

Resumo

Modelos de difusão enfrentam dificuldades para escalar além de suas resoluções de treinamento, uma vez que a amostragem direta em alta resolução é lenta e custosa, enquanto a super-resolução de imagem pós-processamento (ISR) introduz artefatos e latência adicional ao operar após a decodificação. Apresentamos o Latent Upscaler Adapter (LUA), um módulo leve que realiza super-resolução diretamente no código latente do gerador antes da etapa final de decodificação do VAE. O LUA integra-se como um componente plug-and-play, sem exigir modificações no modelo base ou estágios adicionais de difusão, e permite a síntese em alta resolução por meio de uma única passagem direta no espaço latente. Um backbone compartilhado no estilo Swin com cabeças de pixel-shuffle específicas para escala suporta fatores de 2x e 4x e mantém compatibilidade com baselines de SR no espaço de imagem, alcançando qualidade perceptual comparável com um tempo de decodificação e upscaling quase 3x menor (adicionando apenas +0,42 s para geração de 1024 px a partir de 512 px, em comparação com 1,87 s para SR no espaço de pixels usando a mesma arquitetura SwinIR). Além disso, o LUA demonstra forte generalização entre os espaços latentes de diferentes VAEs, facilitando sua implantação sem a necessidade de retreinar do zero para cada novo decodificador. Experimentos extensivos mostram que o LUA se aproxima da fidelidade da geração nativa em alta resolução, oferecendo um caminho prático e eficiente para síntese de imagens escaláveis e de alta fidelidade em pipelines modernos de difusão.

English

Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.

Um Pequeno Passo no Latente, Um Grande Salto para os Pixels: Adaptador Rápido de Upscale Latente para Seus Modelos de Difusão

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Resumo

Support