PiD: Snelle en hoge-resolutie latente decodering met pixeldiffusie

Samenvatting

De meeste praktische hoge-resolutie tekst-naar-beeldsystemen, waaronder latente diffusie en autoregressieve modellen, genereren in een compacte latente ruimte, waarna een decoder de gegenereerde latenten terugkaart naar pixels. De latent-naar-pixeldecoder is echter reconstructiegericht, geoptimaliseerd om de encoder te inverteren in plaats van meer details te synthetiseren, en wordt steeds kostbaarder op megapixelschaal. Dit nadeel vraagt om een expressiever en efficiënter decoderingparadigma. Geïnspireerd door recente vooruitgang in schaalbare pixelruimte-diffusie introduceren we PiD, een Pixel-diffusie Decoder die latente decodering herformuleert als conditionele pixel-diffusie, waarbij decodering en opschaling worden verenigd in één generatieve module. Door rechtstreeks in hoge-resolutie pixelruimte te denoïsen, synthetiseert PiD 4× en zelfs 8× opgeschaalde beelden met lage latentie. Voor latente conditionering injecteert een lichte sigma-bewuste adapter ruisgecontamineerde latenten in de pixel-diffusieruggengraat, waardoor PiD gedeeltelijk gedenoïste latenten kan decoderen en het latente diffusieproces vroegtijdig kan beëindigen. Om de efficiëntie verder te verbeteren, destilleren we het model met DMD2, waardoor de inferentie wordt teruggebracht tot slechts 4 stappen. PiD is toepasbaar op zowel conventionele VAE-latenten als semantische latenten (bijv. SigLIP, DINOv2) die worden gebruikt in recente op RAE gebaseerde modellen. PiD decodeert latenten van 512×512 afbeeldingen naar 2048×2048 pixels in minder dan 1 seconde met 13 GB piekgeheugen op een consumenten-RTX 5090, en zo snel als 210 ms op een GB200 GPU, ongeveer 6× sneller dan trapsgewijze diffusie-gebaseerde superresolutiepijplijnen met betere visuele betrouwbaarheid.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.