ChatPaper.aiChatPaper

ピクセル平均フローによる一段階潜在フリー画像生成

One-step Latent-free Image Generation with Pixel Mean Flows

January 29, 2026
著者: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI

要旨

現代の拡散モデル/フローベースモデルによる画像生成は、一般に二つの核心的特徴を示す:(i)多段階サンプリングの使用、(ii)潜在空間での動作。近年の進展により、各側面において個別に有望な進歩が見られ、潜在空間を必要としない一段階の拡散/フロー生成への道筋が開かれてきた。本研究ではこの目標に向けさらに一歩を進め、「ピクセル平均流(pMF)」を提案する。我々の核心的な指針は、ネットワークの出力空間と損失空間を別個に定式化することである。ネットワークの目標は、想定される低次元画像多様体(すなわちx-prediction)上に設定し、損失は速度空間における平均流(MeanFlow)を通じて定義する。画像多様体と平均速度場の間の単純な変換を導入する。実験では、pMFはImageNetにおける256x256解像度(2.22 FID)および512x512解像度(2.48 FID)の一段階潜在空間フリー生成で強力な結果を達成し、この領域で欠けていた重要なピースを埋めるものである。本研究が拡散/フローベース生成モデルの境界をさらに押し広げることを期待する。
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.
PDF63January 31, 2026