PixelFlow: 픽셀 공간에서의 플로우 기반 생성 모델
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
저자: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
초록
우리는 PixelFlow라는 이미지 생성 모델 패밀리를 소개합니다. 이 모델은 주류인 잠재 공간(latent-space) 모델과 달리 원시 픽셀 공간에서 직접 작동합니다. 이 접근 방식은 사전 훈련된 변분 오토인코더(VAE)의 필요성을 제거하고 전체 모델을 종단 간(end-to-end)으로 학습 가능하게 함으로써 이미지 생성 과정을 단순화합니다. PixelFlow는 효율적인 캐스케이드 플로우 모델링을 통해 픽셀 공간에서도 경제적인 계산 비용을 달성합니다. 이 모델은 256x256 ImageNet 클래스 조건부 이미지 생성 벤치마크에서 1.98의 FID(Fréchet Inception Distance)를 기록했습니다. 텍스트-이미지 변환 결과는 PixelFlow가 이미지 품질, 예술성, 그리고 의미론적 제어 측면에서 탁월함을 보여줍니다. 우리는 이 새로운 패러다임이 차세대 시각 생성 모델에 영감을 주고 새로운 기회를 열어줄 것으로 기대합니다. 코드와 모델은 https://github.com/ShoufaChen/PixelFlow에서 확인할 수 있습니다.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary