PixelFlow : Modèles génératifs dans l'espace des pixels avec des flux
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
Auteurs: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
Résumé
Nous présentons PixelFlow, une famille de modèles de génération d'images opérant directement dans l'espace des pixels bruts, contrairement aux modèles dominants basés sur l'espace latent. Cette approche simplifie le processus de génération d'images en éliminant le besoin d'un Autoencodeur Variationnel (VAE) pré-entraîné et en permettant l'entraînement end-to-end de l'ensemble du modèle. Grâce à une modélisation efficace des flux en cascade, PixelFlow atteint un coût de calcul abordable dans l'espace des pixels. Il obtient un FID de 1,98 sur le benchmark de génération d'images conditionnelles par classe ImageNet en 256x256. Les résultats qualitatifs en génération d'images à partir de texte démontrent que PixelFlow excelle en termes de qualité d'image, d'artistique et de contrôle sémantique. Nous espérons que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour les modèles de génération visuelle de nouvelle génération. Le code et les modèles sont disponibles à l'adresse https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary