Одноэтапная генерация изображений без скрытых переменных с помощью потоков средних значений пикселей
One-step Latent-free Image Generation with Pixel Mean Flows
January 29, 2026
Авторы: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He
cs.AI
Аннотация
Современные диффузионные модели и модели потоков для генерации изображений обычно обладают двумя ключевыми характеристиками: (i) использованием многошагового сэмплирования и (ii) работой в латентном пространстве. Недавние достижения позволили добиться обнадеживающего прогресса по каждому из этих аспектов в отдельности, прокладывая путь к одношаговой диффузии/потоку без использования латентных пространств. В данной работе мы делаем следующий шаг к этой цели и предлагаем «пиксельный MeanFlow» (pMF). Наш ключевой принцип заключается в раздельном формулировании пространства выходов сети и пространства потерь. Целевая функция сети проектируется для работы на предполагаемом многообразии изображений низкой размерности (т.е. предсказание x), в то время как функция потерь определяется через MeanFlow в пространстве скоростей. Мы вводим простое преобразование между многообразием изображений и усредненным полем скоростей. В экспериментах pMF демонстрирует высокие результаты в одношаговой генерации без латентных пространств на наборе данных ImageNet с разрешением 256x256 (FID 2.22) и 512x512 (FID 2.48), заполняя ключевой пробел в данной области. Мы надеемся, что наше исследование будет способствовать дальнейшему расширению границ генеративных моделей на основе диффузии и потоков.
English
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.