ChatPaper.aiChatPaper

PixelFlow: Modelos Generativos en el Espacio de Píxeles con Flujo

PixelFlow: Pixel-Space Generative Models with Flow

April 10, 2025
Autores: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI

Resumen

Presentamos PixelFlow, una familia de modelos de generación de imágenes que operan directamente en el espacio de píxeles sin procesar, en contraste con los modelos predominantes que trabajan en espacios latentes. Este enfoque simplifica el proceso de generación de imágenes al eliminar la necesidad de un Autoencoder Variacional (VAE) preentrenado y permitir que todo el modelo sea entrenable de extremo a extremo. A través de un modelado eficiente de flujo en cascada, PixelFlow logra un costo computacional asequible en el espacio de píxeles. Alcanza un FID de 1.98 en el benchmark de generación de imágenes condicionadas por clase de ImageNet con resolución de 256x256. Los resultados cualitativos de texto a imagen demuestran que PixelFlow sobresale en calidad de imagen, artisticidad y control semántico. Esperamos que este nuevo paradigma inspire y abra nuevas oportunidades para los modelos de generación visual de próxima generación. El código y los modelos están disponibles en https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate directly in the raw pixel space, in contrast to the predominant latent-space models. This approach simplifies the image generation process by eliminating the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow achieves affordable computation cost in pixel space. It achieves an FID of 1.98 on 256times256 ImageNet class-conditional image generation benchmark. The qualitative text-to-image results demonstrate that PixelFlow excels in image quality, artistry, and semantic control. We hope this new paradigm will inspire and open up new opportunities for next-generation visual generation models. Code and models are available at https://github.com/ShoufaChen/PixelFlow.

Summary

AI-Generated Summary

PDF196April 14, 2025