픽셀 평균 흐름을 이용한 단일 단계 잠재 변수 없는 이미지 생성
One-step Latent-free Image Generation with Pixel Mean Flows
January 29, 2026
저자: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI
초록
현대적인 확산/흐름 기반 이미지 생성 모델은 일반적으로 두 가지 핵심 특성을 보입니다: (i) 다단계 샘플링 사용, (ii) 잠재 공간에서 운영. 최근 발전은 각 측면에서 개별적으로 고무적인 진전을 이루며, 잠재 공간 없이 한 단계로 이루어지는 확산/흐름 모델을 위한 길을 열었습니다. 본 연구에서는 이 목표에 한 걸음 더 나아가 "픽셀 평균 흐름"(pMF)을 제안합니다. 우리의 핵심 지침은 네트워크 출력 공간과 손실 공간을 별도로 구성하는 것입니다. 네트워크 목표는 가정된 저차원 이미지 매니폴드(즉, x-예측)에 위치하도록 설계된 반면, 손실은 속도 공간에서의 평균 흐름을 통해 정의됩니다. 우리는 이미지 매니폴드와 평균 속도장 사이의 간단한 변환을 도입합니다. 실험에서 pMF는 ImageNet에서 256x256 해상도(2.22 FID) 및 512x512 해상도(2.48 FID)의 한 단계 잠재 공간 무관 생성에서 강력한 결과를 달성하여, 이 영역에서 부족했던 핵심 부분을 채웁니다. 우리의 연구가 확산/흐름 기반 생성 모델의 경계를 더욱 발전시키길 바랍니다.
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.