PiD: Decodificação Latente Rápida e de Alta Resolução com Difusão de Pixel

Resumo

A maioria dos sistemas práticos de texto para imagem de alta resolução, incluindo modelos de difusão latente e autorregressivos, realiza a geração em um espaço latente compacto, e um decodificador mapeia os latentes gerados de volta para pixels. No entanto, o decodificador latente-para-pixel é orientado à reconstrução, otimizado para inverter o codificador em vez de sintetizar mais detalhes, e torna-se cada vez mais custoso em escala de megapixels. Essa desvantagem demanda um paradigma de decodificação mais expressivo e eficiente. Motivados pelos recentes avanços em difusão escalável no espaço de pixels, apresentamos o PiD, um Decodificador de Difusão de Pixels que reformula a decodificação latente como difusão condicional de pixels, unificando decodificação e upsampling em um único módulo generativo. Ao remover ruídos diretamente no espaço de pixels de alta resolução, o PiD sintetiza imagens com ampliação de 4x e até 8x com baixa latência. Para o condicionamento latente, um adaptador leve sensível a sigma injeta latentes corrompidos por ruído no backbone de difusão de pixels, permitindo que o PiD decodifique latentes parcialmente sem ruído e interrompa o processo de difusão latente precocemente. Para melhorar ainda mais a eficiência, destilamos o modelo usando DMD2, reduzindo a inferência para apenas 4 passos. O PiD se aplica tanto a latentes de VAE convencionais quanto a latentes semânticos (por exemplo, SigLIP, DINOv2) usados em modelos recentes baseados em RAE. O PiD decodifica latentes de imagens de 512x512 pixels em imagens de 2048x2048 pixels em menos de 1 segundo, com pico de memória de 13 GB em uma RTX 5090 de consumo, e em até 210 ms em uma GPU GB200, cerca de 6 vezes mais rápido que pipelines de super-resolução baseados em difusão em cascata, com melhor fidelidade visual.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.