PiD: Быстрое и высокоразрешающее латентное декодирование с пиксельной диффузией

Аннотация

Большинство практических систем генерации текста в изображение высокого разрешения, включая латентные диффузионные и авторегрессионные модели, выполняют генерацию в компактном латентном пространстве, а декодер отображает сгенерированные латентные представления обратно в пиксели. Однако такой декодер "латентные-в-пиксели" ориентирован на реконструкцию и оптимизирован для инвертирования энкодера, а не для синтеза дополнительных деталей, причем его стоимость становится все более высокой при масштабе мегапикселей. Данный недостаток требует более выразительной и эффективной парадигмы декодирования. Руководствуясь последними успехами в масштабируемой пиксельной диффузии, мы представляем PiD — пиксельный диффузионный декодер (Pixel diffusion Decoder), который переформулирует латентное декодирование как условную пиксельную диффузию, объединяя декодирование и апсемплинг в единый генеративный модуль. За счет шумоподавления непосредственно в пиксельном пространстве высокого разрешения PiD синтезирует изображения с увеличением в 4 и даже 8 раз при низкой задержке. Для латентного обусловливания используется легковесный адаптер с учетом сигмы (sigma-aware adapter), который вводит зашумленные латентные представления в основу пиксельной диффузии, позволяя PiD декодировать частично очищенные от шума латентные представления и завершать латентный диффузионный процесс на ранней стадии. Для дальнейшего повышения эффективности мы дистиллируем модель с помощью DMD2, сокращая инференс до всего 4 шагов. PiD применим как к обычным латентным представлениям VAE, так и к семантическим латентным представлениям (например, SigLIP, DINOv2), используемым в недавних моделях на основе RAE. PiD декодирует латентные представления изображений размером 512×512 в пиксели 2048×2048 менее чем за 1 секунду при пиковом потреблении 13 ГБ памяти на потребительском GPU RTX 5090, и всего за 210 мс на GPU GB200, что примерно в 6 раз быстрее каскадных конвейеров суперразрешения на основе диффузии при лучшей визуальной достоверности.

English

Most practical high-resolution text-to-image systems, including latent diffusion and autoregressive models, perform generation in a compact latent space, and a decoder maps the generated latents back to pixels. Yet the latent-to-pixel decoder is reconstruction-oriented, optimized to invert the encoder rather than synthesize more details, and becomes increasingly costly at megapixel scale. This drawback calls for a more expressive and efficient decoding paradigm. Motivated by recent progress in scalable pixel-space diffusion, we introduce PiD, a Pixel diffusion Decoder that reformulates latent decoding as conditional pixel diffusion, unifying decoding and upsampling into one generative module. By denoising directly in high-resolution pixel space, PiD synthesizes 4times and even 8times upscaled images with low latency. For latent conditioning, a lightweight sigma-aware adapter injects noise-corrupted latents into the pixel diffusion backbone, enabling PiD to decode partially denoised latents and terminate the latent diffusion process early. To further improve efficiency, we distill the model using DMD2, reducing inference to just 4 steps. PiD applies to both conventional VAE latents and semantic latents (e.g., SigLIP, DINOv2) used in recent RAE-based models. PiD decodes latents of 512 times 512 images into 2048 times 2048 pixels in under 1 second with 13 GB peak memory on a consumer RTX 5090, and as fast as 210 ms on a GB200 GPU, about 6times faster than cascaded diffusion-based super-resolution pipelines with better visual fidelity.