ChatPaper.aiChatPaper

PixelDiT: 画像生成のためのピクセル拡散トランスフォーマー

PixelDiT: Pixel Diffusion Transformers for Image Generation

November 25, 2025
著者: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI

要旨

潜在空間モデリングは拡散トランスフォーマー(DiT)における標準的な手法であった。しかし、この手法は事前学習されたオートエンコーダに依存する二段階パイプラインを必要とし、非可逆的な再構成による誤差蓄積を引き起こし、共同最適化を妨げるという課題があった。これらの問題を解決するため、本研究ではオートエンコーダを不要とし、ピクセル空間で直接拡散過程を学習する単一段階のエンドツーエンドモデルであるPixelDiTを提案する。PixelDiTは完全なトランスフォーマーベースのアーキテクチャを採用し、大域的な意味情報を捕捉するパッチレベルDiTと、テクスチャ詳細を精緻化するピクセルレベルDiTからなる二重階層設計により、細部の情報を保持しつつピクセル空間拡散モデルの効率的な学習を実現する。分析により、効果的なピクセルレベルトークンモデリングがピクセル拡散の成功に不可欠であることを明らかにした。PixelDiTはImageNet 256×256において1.61のFIDを達成し、既存のピクセル生成モデルを大幅に上回る。さらにテキストから画像への生成タスクに拡張し、1024×1024解像度でのピクセル空間事前学習を実施したところ、GenEvalで0.74、DPG-benchで83.5を達成し、最高性能の潜在拡散モデルに迫る結果を示した。
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
PDF131December 4, 2025