ChatPaper.aiChatPaper

PixelDiT: 이미지 생성을 위한 픽셀 확산 트랜스포머

PixelDiT: Pixel Diffusion Transformers for Image Generation

November 25, 2025
저자: Yongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo
cs.AI

초록

잠재 공간 모델링은 Diffusion Transformer(DiT)의 표준 접근법으로 자리 잡아왔습니다. 그러나 이 방식은 사전 훈련된 오토인코더에 의존하는 2단계 파이프라인을 필요로 하며, 이로 인해 손실이 수반되는 복원 과정에서 오류 누적이 발생하고 공동 최적화가 저해됩니다. 이러한 문제점을 해결하기 위해 본 논문에서는 오토인코더가 필요 없이 픽셀 공간에서 직접 확산 과정을 학습하는 단일 단계의 종단간(end-to-end) 모델인 PixelDiT를 제안합니다. PixelDiT는 완전한 트랜스포머 기반 아키텍처로, 전역적 의미를 포착하는 패치 수준 DiT와 텍스처 디테일을 정교하게 다듬는 픽셀 수준 DiT로 구성된 이중 수준 설계를 채택하여 세부 사항을 보존하면서도 픽셀 공간 확산 모델의 효율적인 학습을 가능하게 합니다. 우리의 분석에 따르면 효과적인 픽셀 수준 토큰 모델링이 픽셀 확산 모델의 성공에 필수적입니다. PixelDiT는 ImageNet 256x256에서 1.61 FID를 달성하여 기존 픽셀 생성 모델을 큰 차이로 앞섰습니다. 또한 PixelDiT를 텍스트-이미지 생성으로 확장하고 픽셀 공간에서 1024x1024 해상도로 사전 훈련하였습니다. 그 결과 GenEval에서 0.74, DPG-bench에서 83.5 점수를 기록하여 최고 수준의 잠재 확산 모델에 근접한 성능을 보였습니다.
English
Latent-space modeling has been the standard for Diffusion Transformers (DiTs). However, it relies on a two-stage pipeline where the pretrained autoencoder introduces lossy reconstruction, leading to error accumulation while hindering joint optimization. To address these issues, we propose PixelDiT, a single-stage, end-to-end model that eliminates the need for the autoencoder and learns the diffusion process directly in the pixel space. PixelDiT adopts a fully transformer-based architecture shaped by a dual-level design: a patch-level DiT that captures global semantics and a pixel-level DiT that refines texture details, enabling efficient training of a pixel-space diffusion model while preserving fine details. Our analysis reveals that effective pixel-level token modeling is essential to the success of pixel diffusion. PixelDiT achieves 1.61 FID on ImageNet 256x256, surpassing existing pixel generative models by a large margin. We further extend PixelDiT to text-to-image generation and pretrain it at the 1024x1024 resolution in pixel space. It achieves 0.74 on GenEval and 83.5 on DPG-bench, approaching the best latent diffusion models.
PDF131December 4, 2025