PiD : Décodage latent rapide et haute résolution par diffusion de pixels

Résumé

La plupart des systèmes pratiques de génération texte-image haute résolution, y compris les modèles de diffusion latente et autorégressifs, effectuent la génération dans un espace latent compact, et un décodeur reconvertit les latents générés en pixels. Pourtant, le décodeur latent-à-pixel est orienté reconstruction, optimisé pour inverser l'encodeur plutôt que pour synthétiser davantage de détails, et devient de plus en plus coûteux à l'échelle mégapixel. Cet inconvénient appelle un paradigme de décodage plus expressif et plus efficace. Motivés par les progrès récents de la diffusion pixel à grande échelle, nous introduisons PiD, un décodeur à diffusion pixel qui reformule le décodage latent comme une diffusion pixel conditionnelle, unifiant le décodage et le suréchantillonnage en un seul module génératif. En débruitant directement dans l'espace pixel haute résolution, PiD synthétise des images suréchantillonnées par 4× et même 8× avec une faible latence. Pour le conditionnement latent, un adaptateur léger sensible à sigma injecte des latents corrompus par le bruit dans le réseau principal de diffusion pixel, permettant à PiD de décoder des latents partiellement débruités et de terminer le processus de diffusion latente plus tôt. Pour améliorer encore l'efficacité, nous distillons le modèle à l'aide de DMD2, réduisant l'inférence à seulement 4 étapes. PiD s'applique à la fois aux latents VAE conventionnels et aux latents sémantiques (par exemple, SigLIP, DINOv2) utilisés dans les modèles récents basés sur RAE. PiD décode des latents d'images de 512×512 pixels en 2048×2048 pixels en moins d'une seconde avec une mémoire maximale de 13 Go sur un RTX 5090 grand public, et aussi rapidement qu'en 210 ms sur un GPU GB200, soit environ 6× plus rapidement que les pipelines de super-résolution basés sur la diffusion en cascade, avec une meilleure fidélité visuelle.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.