ChatPaper.aiChatPaper

Einstufige latenzfreie Bildgenerierung mit Pixel-Mean-Flows

One-step Latent-free Image Generation with Pixel Mean Flows

January 29, 2026
papers.authors: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI

papers.abstract

Moderne Diffusions- und Fluss-basierte Modelle zur Bildgenerierung weisen typischerweise zwei Kernmerkmale auf: (i) die Verwendung von mehrstufiger Abtastung und (ii) das Operieren in einem latenten Raum. Jüngste Fortschritte haben ermutigende Entwicklungen in beiden Bereichen erzielt und ebnen den Weg hin zu einstufiger Diffusion/Fluss ohne latente Räume. In dieser Arbeit gehen wir einen weiteren Schritt in Richtung dieses Ziels und schlagen "Pixel-MeanFlow" (pMF) vor. Unser zentraler Leitfaden ist die separate Formulierung des Netzwerk-Ausgaberaums und des Verlustraums. Das Netzwerkziel ist so konzipiert, dass es sich auf einer vermuteten niedrigdimensionalen Bildmannigfaltigkeit befindet (d.h. x-Prädiktion), während der Verlust über MeanFlow im Geschwindigkeitsraum definiert wird. Wir führen eine einfache Transformation zwischen der Bildmannigfaltigkeit und dem durchschnittlichen Geschwindigkeitsfeld ein. In Experimenten erzielt pMF starke Ergebnisse für die einstufige, latente-freie Generierung auf ImageNet bei 256x256 Auflösung (2.22 FID) und 512x512 Auflösung (2.48 FID) und schließt damit eine wichtige Lücke in diesem Bereich. Wir hoffen, dass unsere Studie die Grenzen diffusions- und fluss-basierter generativer Modelle weiter vorantreiben wird.
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.
PDF63January 31, 2026