PixelFlow: Генеративные модели в пространстве пикселей с использованием потоков
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
Авторы: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
Аннотация
Мы представляем PixelFlow — семейство моделей генерации изображений, которые работают непосредственно в пространстве сырых пикселей, в отличие от преобладающих моделей, оперирующих в латентном пространстве. Этот подход упрощает процесс генерации изображений, устраняя необходимость в предварительно обученном вариационном автоэнкодере (VAE) и делая всю модель обучаемой от начала до конца. Благодаря эффективному каскадному моделированию потоков, PixelFlow достигает приемлемых вычислительных затрат в пространстве пикселей. Модель демонстрирует показатель FID 1.98 на бенчмарке условной генерации изображений размером 256×256 на основе ImageNet. Качественные результаты генерации изображений по текстовым описаниям показывают, что PixelFlow превосходит конкурентов по качеству изображений, художественности и семантическому контролю. Мы надеемся, что эта новая парадигма вдохновит и откроет новые возможности для моделей визуальной генерации следующего поколения. Код и модели доступны по адресу https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary