PixelFlow : Modèles génératifs dans l'espace des pixels avec des flux

papers.abstract

Nous présentons PixelFlow, une famille de modèles de génération d'images opérant directement dans l'espace des pixels bruts, contrairement aux modèles dominants basés sur l'espace latent. Cette approche simplifie le processus de génération d'images en éliminant le besoin d'un Autoencodeur Variationnel (VAE) pré-entraîné et en permettant l'entraînement end-to-end de l'ensemble du modèle. Grâce à une modélisation efficace des flux en cascade, PixelFlow atteint un coût de calcul abordable dans l'espace des pixels. Il obtient un FID de 1,98 sur le benchmark de génération d'images conditionnelles par classe ImageNet en 256x256. Les résultats qualitatifs en génération d'images à partir de texte démontrent que PixelFlow excelle en termes de qualité d'image, d'artistique et de contrôle sémantique. Nous espérons que ce nouveau paradigme inspirera et ouvrira de nouvelles opportunités pour les modèles de génération visuelle de nouvelle génération. Le code et les modèles sont disponibles à l'adresse https://github.com/ShoufaChen/PixelFlow.

English

We present PixelFlow, a family of image generation models that operate directly in the raw pixel space, in contrast to the predominant latent-space models. This approach simplifies the image generation process by eliminating the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow achieves affordable computation cost in pixel space. It achieves an FID of 1.98 on 256times256 ImageNet class-conditional image generation benchmark. The qualitative text-to-image results demonstrate that PixelFlow excels in image quality, artistry, and semantic control. We hope this new paradigm will inspire and open up new opportunities for next-generation visual generation models. Code and models are available at https://github.com/ShoufaChen/PixelFlow.

PixelFlow : Modèles génératifs dans l'espace des pixels avec des flux

PixelFlow: Pixel-Space Generative Models with Flow

papers.abstract

Support