PixelDiT: Pixel Diffusie Transformers voor Beeldgeneratie
PixelDiT: Pixel Diffusion Transformers for Image Generation
November 25, 2025
Auteurs: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI
Samenvatting
Latent-space-modellering is de standaardbenadering voor Diffusion Transformers (DiT's). Deze methode berust echter op een tweestaps pijplijn waarbij de vooraf getrainde auto-encoder een verliesgevende reconstructie introduceert, wat leidt tot foutaccumulatie en gezamenlijke optimalisatie belemmert. Om deze problemen aan te pakken, stellen we PixelDiT voor, een eentraps, end-to-end model dat de auto-encoder overbodig maakt en het diffusieproces rechtstreeks in de pixelruimte aanleert. PixelDiT hanteert een volledig op transformers gebaseerde architectuur met een tweeledig ontwerp: een patch-level DiT die globale semantiek vastlegt en een pixel-level DiT die textuurdetails verfijnt, waardoor efficiënte training van een pixelruimte-diffusiemodel mogelijk wordt terwijl fijne details behouden blijven. Onze analyse toont aan dat effectieve modellering van pixel-level tokens essentieel is voor het succes van pixeldiffusie. PixelDiT behaalt een FID van 1.61 op ImageNet 256x256, waarmee het bestaande pixelgeneratieve modellen met een grote marge overtreft. We breiden PixelDiT verder uit naar tekst-naar-beeldgeneratie en pretrainen het op een resolutie van 1024x1024 in de pixelruimte. Het behaalt 0.74 op GenEval en 83.5 op DPG-bench, waarmee het de beste latent-diffusiemodellen benadert.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.