PiD: Decodificación Latente Rápida y de Alta Resolución con Difusión de Píxeles

Resumen

La mayoría de los sistemas prácticos de texto a imagen de alta resolución, incluidos los de difusión latente y los modelos autorregresivos, realizan la generación en un espacio latente compacto, y un decodificador mapea los latentes generados de vuelta a píxeles. Sin embargo, el decodificador de latente a píxel está orientado a la reconstrucción, optimizado para invertir el codificador en lugar de sintetizar más detalles, y se vuelve cada vez más costoso a escala de megapíxeles. Este inconveniente exige un paradigma de decodificación más expresivo y eficiente. Motivados por los recientes avances en la difusión escalable en el espacio de píxeles, presentamos PiD, un Decodificador de Difusión de Píxeles que reformula la decodificación latente como difusión condicional de píxeles, unificando la decodificación y el sobremuestreo en un único módulo generativo. Al eliminar el ruido directamente en el espacio de píxeles de alta resolución, PiD sintetiza imágenes con un aumento de 4 e incluso 8 veces con baja latencia. Para el condicionamiento latente, un adaptador ligero sensible a sigma inyecta latentes corruptos por ruido en la columna vertebral de difusión de píxeles, lo que permite a PiD decodificar latentes parcialmente denoizados y terminar el proceso de difusión latente de forma temprana. Para mejorar aún más la eficiencia, destilamos el modelo mediante DMD2, reduciendo la inferencia a solo 4 pasos. PiD se aplica tanto a latentes VAE convencionales como a latentes semánticos (por ejemplo, SigLIP, DINOv2) utilizados en modelos recientes basados en RAE. PiD decodifica latentes de imágenes de 512 × 512 píxeles en píxeles de 2048 × 2048 en menos de 1 segundo con un pico de memoria de 13 GB en una RTX 5090 de consumo, y tan rápido como 210 ms en una GPU GB200, aproximadamente 6 veces más rápido que los sistemas de superresolución basados en difusión en cascada con mejor fidelidad visual.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.