PixelDiT: Pixel Diffusion Transformers для генерации изображений
PixelDiT: Pixel Diffusion Transformers for Image Generation
November 25, 2025
Авторы: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI
Аннотация
Моделирование в латентном пространстве стало стандартом для диффузионных трансформеров (DiT). Однако этот подход основан на двухэтапном пайплайне, в котором предобученный автоэнкодер вносит потери при реконструкции, что приводит к накоплению ошибок и препятствует совместной оптимизации. Для решения этих проблем мы предлагаем PixelDiT — одноэтапную end-to-end модель, которая исключает необходимость использования автоэнкодера и изучает диффузионный процесс непосредственно в пиксельном пространстве. PixelDiT использует полностью трансформерную архитектуру с двухуровневой организацией: DiT на уровне патчей для захвата глобальной семантики и DiT на уровне пикселей для уточнения текстурных деталей, что позволяет эффективно обучать диффузионную модель в пиксельном пространстве с сохранением тонких деталей. Наш анализ показывает, что эффективное моделирование токенов на пиксельном уровне является ключевым фактором успеха пиксельной диффузии. PixelDiT достигает показателя FID 1.61 на ImageNet 256×256, значительно превосходя существующие пиксельные генеративные модели. Мы также расширяем PixelDiT для задач текстово-изобразительной генерации и предварительно обучаем модель в пиксельном пространстве с разрешением 1024×1024. Модель демонстрирует результаты 0.74 на GenEval и 83.5 на DPG-bench, приближаясь к лучшим моделям латентной диффузии.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.