Generación de Imágenes en un Solo Paso sin Variables Latentes mediante Flujos de Media de Píxeles
One-step Latent-free Image Generation with Pixel Mean Flows
January 29, 2026
Autores: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI
Resumen
Los modelos modernos de difusión/flujo para generación de imágenes suelen presentar dos características principales: (i) utilizan un muestreo multi-etapa, y (ii) operan en un espacio latente. Los avances recientes han logrado un progreso alentador en cada aspecto por separado, allanando el camino hacia la difusión/flujo en una sola etapa sin espacios latentes. En este trabajo, damos un paso más hacia este objetivo y proponemos "pixel MeanFlow" (pMF). Nuestra directriz principal es formular el espacio de salida de la red y el espacio de pérdida por separado. El objetivo de la red está diseñado para situarse en una variedad de imagen de baja dimensión presunta (es decir, predicción-x), mientras que la pérdida se define mediante MeanFlow en el espacio de velocidad. Introducimos una transformación simple entre la variedad de imagen y el campo de velocidad promedio. En los experimentos, pMF logra resultados sólidos para la generación en una sola etapa sin latentes en ImageNet con resolución 256x256 (FID 2.22) y resolución 512x512 (FID 2.48), completando una pieza clave faltante en este régimen. Esperamos que nuestro estudio impulse aún más los límites de los modelos generativos basados en difusión/flujo.
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.