PixelDiT: Transformadores de Difusão de Pixel para Geração de Imagens
PixelDiT: Pixel Diffusion Transformers for Image Generation
November 25, 2025
Autores: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI
Resumo
A modelagem no espaço latente tem sido o padrão para Transformadores de Difusão (DiTs). No entanto, esta abordagem depende de um pipeline de dois estágios no qual o autoencoder pré-treinado introduz uma reconstrução com perdas, levando ao acúmulo de erros e dificultando a otimização conjunta. Para resolver essas questões, propomos o PixelDiT, um modelo de estágio único e de ponta a ponta que elimina a necessidade do autoencoder e aprende o processo de difusão diretamente no espaço de pixels. O PixelDiT adota uma arquitetura totalmente baseada em transformers, moldada por um design de nível duplo: um DiT em nível de *patch* que captura a semântica global e um DiT em nível de pixel que refina os detalhes de textura, permitindo o treinamento eficiente de um modelo de difusão no espaço de pixels enquanto preserva detalhes finos. Nossa análise revela que a modelagem eficaz de *tokens* em nível de pixel é essencial para o sucesso da difusão em pixels. O PixelDiT alcança um FID de 1,61 no ImageNet 256x256, superando os modelos generativos de pixels existentes por uma grande margem. Estendemos ainda mais o PixelDiT para a geração de texto para imagem e o pré-treinamos na resolução 1024x1024 no espaço de pixels. Ele alcança 0,74 no GenEval e 83,5 no DPG-bench, aproximando-se dos melhores modelos de difusão latente.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.