ChatPaper.aiChatPaper

PixelDiT : Transformers de Diffusion Pixel pour la Génération d'Images

PixelDiT: Pixel Diffusion Transformers for Image Generation

November 25, 2025
papers.authors: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI

papers.abstract

La modélisation en espace latent a été la norme pour les Transformers de Diffusion (DiTs). Cependant, elle repose sur un pipeline à deux étapes où l'autoencodeur préentraîné introduit une reconstruction avec pertes, conduisant à une accumulation d'erreurs tout en entravant l'optimisation conjointe. Pour résoudre ces problèmes, nous proposons PixelDiT, un modèle monophasé et de bout en bout qui élimine le besoin de l'autoencodeur et apprend le processus de diffusion directement dans l'espace pixel. PixelDiT adopte une architecture entièrement basée sur des transformers structurée par une conception à double niveau : un DiT au niveau des patchs qui capture la sémantique globale et un DiT au niveau des pixels qui affine les détails texturaux, permettant l'entraînement efficace d'un modèle de diffusion en espace pixel tout en préservant les détails fins. Notre analyse révèle qu'une modélisation efficace des tokens au niveau pixel est essentielle au succès de la diffusion en espace pixel. PixelDiT atteint un FID de 1,61 sur ImageNet 256x256, surpassant largement les modèles génératifs en espace pixel existants. Nous étendons ensuite PixelDiT à la génération texte-image et le préentraînons à la résolution 1024x1024 en espace pixel. Il atteint 0,74 sur GenEval et 83,5 sur DPG-bench, approchant ainsi les meilleurs modèles de diffusion en espace latent.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
PDF131December 4, 2025