Generazione di immagini senza latenza in un singolo passaggio mediante flussi di media pixel

Abstract

I moderni modelli di diffusione/flusso per la generazione di immagini presentano tipicamente due caratteristiche fondamentali: (i) l'utilizzo di un campionamento multi-step e (ii) l'operare in uno spazio latente. I recenti progressi hanno compiuto passi incoraggianti su ciascun aspetto individualmente, aprendo la strada verso una diffusione/flusso one-step senza latenti. In questo lavoro, compiamo un ulteriore passo verso questo obiettivo e proponiamo il "pixel MeanFlow" (pMF). La nostra linea guida fondamentale è formulare separatamente lo spazio di output della rete e lo spazio della loss. L'obiettivo della rete è progettato per risiedere su una presunta varietà immagine a bassa dimensionalità (cioè x-prediction), mentre la loss è definita tramite MeanFlow nello spazio delle velocità. Introduciamo una semplice trasformazione tra la varietà immagine e il campo di velocità medio. Negli esperimenti, pMF ottiene risultati solidi per la generazione one-step senza latenti su ImageNet alla risoluzione 256x256 (2.22 FID) e 512x512 (2.48 FID), colmando un tassello mancante fondamentale in questo ambito. Auspichiamo che il nostro studio possa ulteriormente spingere in avanti i confini dei modelli generativi basati su diffusione/flusso.

English

Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.

Generazione di immagini senza latenza in un singolo passaggio mediante flussi di media pixel

One-step Latent-free Image Generation with Pixel Mean Flows

Abstract

Support