ChatPaper.aiChatPaper

PixelDiT: Transformadores de Difusión de Píxeles para la Generación de Imágenes

PixelDiT: Pixel Diffusion Transformers for Image Generation

November 25, 2025
Autores: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI

Resumen

La modelización en espacio latente ha sido el estándar para los Transformadores de Difusión (DiTs). Sin embargo, este enfoque depende de un proceso de dos etapas en el que el autocodificador preentrenado introduce una reconstrucción con pérdidas, lo que genera una acumulación de errores y dificulta la optimización conjunta. Para abordar estos problemas, proponemos PixelDiT, un modelo monolítico de extremo a extremo que elimina la necesidad del autocodificador y aprende el proceso de difusión directamente en el espacio de píxeles. PixelDiT adopta una arquitectura completamente basada en transformadores conformada por un diseño de doble nivel: un DiT a nivel de parche que captura la semántica global y un DiT a nivel de píxel que refina los detalles texturales, permitiendo el entrenamiento eficiente de un modelo de difusión en espacio de píxeles mientras preserva los detalles finos. Nuestro análisis revela que una modelización efectiva de los tokens a nivel de píxel es esencial para el éxito de la difusión en píxeles. PixelDiT alcanza un FID de 1.61 en ImageNet 256x256, superando por un amplio margen a los modelos generativos de píxeles existentes. Además, extendemos PixelDiT a la generación de texto a imagen y lo preentrenamos a una resolución de 1024x1024 en el espacio de píxeles. El modelo logra 0.74 en GenEval y 83.5 en DPG-bench, aproximándose a los mejores modelos de difusión latente.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
PDF131December 4, 2025