PiD: Schnelle und hochauflösende latente Dekodierung mit Pixel-Diffusion

Zusammenfassung

Die meisten praktischen hochauflösenden Text-zu-Bild-Systeme, darunter latente Diffusions- und autoregressive Modelle, erzeugen Bilder in einem kompakten latenten Raum, und ein Decoder bildet die generierten Latenten wieder in Pixel ab. Allerdings ist der Latenz-zu-Pixel-Decoder rekonstruktionsorientiert, optimiert zur Invertierung des Encoders statt zur Synthese weiterer Details, und wird im Megapixel-Maßstab zunehmend aufwändig. Dieser Nachteil erfordert ein ausdrucksstärkeres und effizienteres Decodierungs-Paradigma. Motiviert durch jüngste Fortschritte bei skalierbarer Pixeldiffusion im Pixelraum stellen wir PiD vor, einen Pixel-Diffusion-Decoder, der die latente Decodierung als bedingte Pixeldiffusion neu definiert und Decodierung sowie Hochskalierung in einem generativen Modul vereint. Durch direktes Entrauschen im hochauflösenden Pixelraum synthetisiert PiD 4-fach und sogar 8-fach hochskalierte Bilder mit geringer Latenz. Für die latente Bedingung injiziert ein leichter sigma-bewusster Adapter verrauschte Latente in das Pixeldiffusions-Backbone, sodass PiD teilweise entrauschte Latente decodieren und den latenten Diffusionsprozess vorzeitig beenden kann. Zur weiteren Effizienzsteigerung destillieren wir das Modell mittels DMD2 und reduzieren die Inferenz auf nur 4 Schritte. PiD ist sowohl auf konventionelle VAE-Latente als auch auf semantische Latente (z. B. SigLIP, DINOv2) anwendbar, die in neueren RAE-basierten Modellen verwendet werden. PiD decodiert Latente von 512×512 Bildern in 2048×2048 Pixel in unter einer Sekunde mit 13 GB Spitzenspeicher auf einer handelsüblichen RTX 5090 und ist auf einer GB200-GPU mit bis zu 210 ms etwa 6‑mal schneller als kaskadierte diffusionsbasierte Super-Resolution-Pipelines, bei besserer visueller Wiedergabetreue.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.