ChatPaper.aiChatPaper

PixelFlow: Pixel-basierte Generative Modelle mit Fluss

PixelFlow: Pixel-Space Generative Models with Flow

April 10, 2025
Autoren: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI

Zusammenfassung

Wir stellen PixelFlow vor, eine Familie von Bildgenerierungsmodellen, die direkt im Rohpixelraum arbeiten, im Gegensatz zu den vorherrschenden Modellen im latenten Raum. Dieser Ansatz vereinfacht den Bildgenerierungsprozess, indem er die Notwendigkeit eines vortrainierten Variational Autoencoders (VAE) eliminiert und das gesamte Modell end-to-end trainierbar macht. Durch effiziente Kaskadenflussmodellierung erreicht PixelFlow erschwingliche Rechenkosten im Pixelraum. Es erzielt einen FID-Wert von 1,98 auf dem 256x256 ImageNet-Klassenerkennungs-Benchmark für die bedingte Bildgenerierung. Die qualitativen Text-zu-Bild-Ergebnisse zeigen, dass PixelFlow in Bezug auf Bildqualität, Kreativität und semantische Kontrolle hervorragend abschneidet. Wir hoffen, dass dieses neue Paradigma neue Möglichkeiten für die nächste Generation von visuellen Generierungsmodellen eröffnet und inspiriert. Code und Modelle sind unter https://github.com/ShoufaChen/PixelFlow verfügbar.
English
We present PixelFlow, a family of image generation models that operate directly in the raw pixel space, in contrast to the predominant latent-space models. This approach simplifies the image generation process by eliminating the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow achieves affordable computation cost in pixel space. It achieves an FID of 1.98 on 256times256 ImageNet class-conditional image generation benchmark. The qualitative text-to-image results demonstrate that PixelFlow excels in image quality, artistry, and semantic control. We hope this new paradigm will inspire and open up new opportunities for next-generation visual generation models. Code and models are available at https://github.com/ShoufaChen/PixelFlow.

Summary

AI-Generated Summary

PDF196April 14, 2025