PixelFlow: Pixel-ruimte Generatieve Modellen met Flow
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
Auteurs: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
Samenvatting
We presenteren PixelFlow, een familie van beeldgeneratiemodellen die rechtstreeks in de ruwe pixelruimte werken, in tegenstelling tot de overheersende latent-ruimtemodellen. Deze aanpak vereenvoudigt het beeldgeneratieproces door de noodzaak van een vooraf getrainde Variational Autoencoder (VAE) te elimineren en het hele model end-to-end trainbaar te maken. Door efficiënte cascade flow-modellering bereikt PixelFlow een betaalbare rekencapaciteit in de pixelruimte. Het behaalt een FID van 1,98 op de 256x256 ImageNet klasse-conditionele beeldgeneratiebenchmark. De kwalitatieve tekst-naar-beeldresultaten tonen aan dat PixelFlow uitblinkt in beeldkwaliteit, artistieke waarde en semantische controle. We hopen dat dit nieuwe paradigma inspiratie zal bieden en nieuwe mogelijkheden zal openen voor de volgende generatie visuele generatiemodellen. Code en modellen zijn beschikbaar op https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary