ChatPaper.aiChatPaper

PixelDiT: Pixel-Diffusion-Transformatoren zur Bildgenerierung

PixelDiT: Pixel Diffusion Transformers for Image Generation

November 25, 2025
papers.authors: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI

papers.abstract

Die latente Raummodellierung war bisher der Standard für Diffusions-Transformatoren (DiTs). Diese Methode beruht jedoch auf einer zweistufigen Pipeline, bei der der vortrainierte Autoencoder verlustbehaftete Rekonstruktionen einführt, was zu Fehlerakkumulation führt und eine gemeinsame Optimierung behindert. Um diese Probleme zu adressieren, schlagen wir PixelDiT vor – ein einstufiges, end-to-end Modell, das den Autoencoder überflüssig macht und den Diffusionsprozess direkt im Pixelraum erlernt. PixelDiT verwendet eine vollständig transformerbasierte Architektur mit einem zweistufigen Design: ein Patch-level DiT, das globale Semantik erfasst, und ein Pixel-level DiT, das Texturdetails verfeinert. Dies ermöglicht ein effizientes Training eines Pixelraum-Diffusionsmodells bei gleichzeitiger Bewahrung feiner Details. Unsere Analyse zeigt, dass eine effektive Modellierung von Pixel-level-Tokens entscheidend für den Erfolg von Pixeldiffusion ist. PixelDiT erreicht einen FID-Wert von 1,61 auf ImageNet 256×256 und übertrifft damit existierende pixelbasierte generative Modelle deutlich. Wir erweitern PixelDiT weiter für Text-zu-Bild-Generierung und vortrainieren es bei 1024×1024-Auflösung im Pixelraum. Es erzielt 0,74 auf GenEval und 83,5 auf DPG-bench und nähert sich damit den besten latenten Diffusionsmodellen an.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
PDF131December 4, 2025