PixelFlow: Modelos Gerativos no Espaço de Píxeis com Fluxo
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
Autores: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
Resumo
Apresentamos o PixelFlow, uma família de modelos de geração de imagens que opera diretamente no espaço de pixels brutos, em contraste com os modelos predominantes que atuam no espaço latente. Essa abordagem simplifica o processo de geração de imagens ao eliminar a necessidade de um Autoencoder Variacional (VAE) pré-treinado e permitir que todo o modelo seja treinável de ponta a ponta. Por meio de uma modelagem eficiente de fluxo em cascata, o PixelFlow alcança um custo computacional acessível no espaço de pixels. Ele obtém um FID de 1,98 no benchmark de geração de imagens condicionadas por classe do ImageNet com resolução de 256x256. Os resultados qualitativos de texto para imagem demonstram que o PixelFlow se destaca em qualidade de imagem, artisticidade e controle semântico. Esperamos que esse novo paradigma inspire e abra novas oportunidades para modelos de geração visual de próxima geração. O código e os modelos estão disponíveis em https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary