PixNerd: 픽셀 신경 필드 확산
PixNerd: Pixel Neural Field Diffusion
July 31, 2025
저자: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
cs.AI
초록
현재 디퓨전 트랜스포머의 성공은 사전 학습된 변분 오토인코더(VAE)에 의해 형성된 압축된 잠재 공간에 크게 의존하고 있습니다. 그러나 이러한 두 단계의 학습 패러다임은 필연적으로 누적된 오류와 디코딩 아티팩트를 초래합니다. 이러한 문제를 해결하기 위해 연구자들은 복잡한 캐스케이드 파이프라인과 증가된 토큰 복잡성을 감수하며 픽셀 공간으로 돌아갔습니다. 이와 대조적으로, 우리는 패치 단위 디코딩을 신경 필드로 모델링하고 단일 스케일, 단일 단계, 효율적이며 종단 간(end-to-end) 솔루션인 픽셀 신경 필드 디퓨전(Pixel Neural Field Diffusion, PixelNerd)을 제안합니다. PixNerd의 효율적인 신경 필드 표현 덕분에 우리는 복잡한 캐스케이드 파이프라인이나 VAE 없이도 ImageNet 256×256에서 2.15 FID, ImageNet 512×512에서 2.84 FID를 직접 달성했습니다. 또한 우리는 PixNerd 프레임워크를 텍스트-이미지 응용 프로그램으로 확장했습니다. 우리의 PixNerd-XXL/16은 GenEval 벤치마크에서 경쟁력 있는 0.73의 종합 점수와 DPG 벤치마크에서 80.9의 종합 점수를 달성했습니다.
English
The current success of diffusion transformers heavily depends on the
compressed latent space shaped by the pre-trained variational autoencoder(VAE).
However, this two-stage training paradigm inevitably introduces accumulated
errors and decoding artifacts. To address the aforementioned problems,
researchers return to pixel space at the cost of complicated cascade pipelines
and increased token complexity. In contrast to their efforts, we propose to
model the patch-wise decoding with neural field and present a single-scale,
single-stage, efficient, end-to-end solution, coined as pixel neural field
diffusion~(PixelNerd). Thanks to the efficient neural field representation in
PixNerd, we directly achieved 2.15 FID on ImageNet 256times256 and 2.84 FID
on ImageNet 512times512 without any complex cascade pipeline or VAE. We also
extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16
achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9
overall score on the DPG benchmark.