Génération d'images sans latence en une étape avec les flux de moyenne de pixels
One-step Latent-free Image Generation with Pixel Mean Flows
January 29, 2026
papers.authors: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI
papers.abstract
Les modèles modernes de génération d'images basés sur la diffusion/le flux présentent généralement deux caractéristiques fondamentales : (i) l'utilisation d'un échantillonnage multi-étapes, et (ii) un fonctionnement dans un espace latent. Les avancées récentes ont réalisé des progrès encourageants sur chaque aspect individuellement, ouvrant la voie vers une diffusion/flux en une étape sans espace latent. Dans ce travail, nous franchissons une étape supplémentaire vers cet objectif et proposons le "pixel MeanFlow" (pMF). Notre principe directeur est de formuler séparément l'espace de sortie du réseau et l'espace de perte. La cible du réseau est conçue pour se situer sur une variété d'images présumée de faible dimension (c'est-à-dire une prédiction-x), tandis que la perte est définie via MeanFlow dans l'espace des vitesses. Nous introduisons une transformation simple entre la variété d'images et le champ de vitesse moyenne. Lors des expériences, pMF obtient des résultats solides pour la génération en une étape sans latent sur ImageNet à une résolution de 256x256 (FID de 2,22) et 512x512 (FID de 2,48), comblant une pièce manquante essentielle dans ce régime. Nous espérons que notre étude fera progresser davantage les limites des modèles génératifs basés sur la diffusion/le flux.
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.