PixelDiT: Trasformatori per Diffusione di Pixel per la Generazione di Immagini
PixelDiT: Pixel Diffusion Transformers for Image Generation
November 25, 2025
Autori: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI
Abstract
La modellazione dello spazio latente è stata lo standard per i Diffusion Transformer (DiT). Tuttavia, questo approccio si basa su una pipeline a due stadi in cui l'autoencoder preaddestrato introduce una ricostruzione con perdita di informazioni, portando a un accumulo di errori e ostacolando l'ottimizzazione congiunta. Per affrontare questi problemi, proponiamo PixelDiT, un modello monostadio end-to-end che elimina la necessità dell'autoencoder e apprende il processo di diffusione direttamente nello spazio dei pixel. PixelDiT adotta un'architettura interamente basata su transformer modellata da un design a doppio livello: un DiT a livello di patch che cattura la semantica globale e un DiT a livello di pixel che raffina i dettagli testurali, consentendo l'addestramento efficiente di un modello di diffusione nello spazio dei pixel preservando i dettagli fini. La nostra analisi rivela che una modellazione efficace dei token a livello di pixel è essenziale per il successo della diffusione sui pixel. PixelDiT raggiunge un FID di 1.61 su ImageNet 256x256, superando di ampio margine i modelli generativi su pixel esistenti. Estendiamo inoltre PixelDiT alla generazione text-to-image e lo preaddestriamo alla risoluzione 1024x1024 nello spazio dei pixel. Il modello raggiunge 0.74 su GenEval e 83.5 su DPG-bench, avvicinandosi alle prestazioni dei migliori modelli di diffusione latente.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.