Geração de Imagens em Uma Etapa Livre de Variáveis Latentes com Fluxos de Média de Pixels

Resumo

Os modelos modernos baseados em difusão/fluxo para geração de imagens geralmente exibem duas características principais: (i) o uso de amostragem multi-etapas e (ii) a operação em um espaço latente. Avanços recentes têm feito progressos animadores em cada aspecto individualmente, pavimentando o caminho para a difusão/fluxo em uma única etapa sem latentes. Neste trabalho, damos um passo adiante em direção a este objetivo e propomos o "pixel MeanFlow" (pMF). Nossa diretriz central é formular o espaço de saída da rede e o espaço de perda separadamente. O alvo da rede é projetado para estar em uma variedade de imagens presumidamente de baixa dimensão (isto é, previsão-x), enquanto a perda é definida via MeanFlow no espaço de velocidade. Introduzimos uma transformação simples entre a variedade de imagens e o campo de velocidade médio. Em experimentos, o pMF alcança resultados sólidos para geração livre de latentes em uma única etapa no ImageNet com resolução de 256x256 (FID 2.22) e 512x512 (FID 2.48), preenchendo uma peça-chave ausente neste regime. Esperamos que nosso estudo avance ainda mais as fronteiras dos modelos generativos baseados em difusão/fluxo.

English

Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.

Geração de Imagens em Uma Etapa Livre de Variáveis Latentes com Fluxos de Média de Pixels

One-step Latent-free Image Generation with Pixel Mean Flows

Resumo

Support