Eénstaps Latent-vrije Beeldgeneratie met Pixel Gemiddelde Stromen

Samenvatting

Moderne diffusie-/flow-gebaseerde modellen voor beeldgeneratie vertonen doorgaans twee kernkenmerken: (i) het gebruik van multi-step sampling, en (ii) opereren in een latente ruimte. Recente vooruitgang heeft bemoedigende voortgang geboekt op elk aspect afzonderlijk, waardoor de weg wordt geëffend naar diffusie/flow in één stap zonder latente ruimtes. In dit werk zetten we een verdere stap richting dit doel en stellen we "pixel MeanFlow" (pMF) voor. Onze centrale richtlijn is om de uitvoerruimte van het netwerk en de verliesruimte afzonderlijk te formuleren. Het netwerkdoel is ontworpen om zich op een verondersteld laagdimensionaal beeldvariëteit (d.w.z. x-predictie) te bevinden, terwijl het verlies wordt gedefinieerd via MeanFlow in de snelheidsruimte. We introduceren een eenvoudige transformatie tussen het beeldvariëteit en het gemiddelde snelheidsveld. In experimenten behaalt pMF sterke resultaten voor latentievrije generatie in één stap op ImageNet bij een resolutie van 256x256 (2.22 FID) en 512x512 (2.48 FID), waardoor een ontbrekende schakel in dit regime wordt ingevuld. We hopen dat onze studie de grenzen van diffusie-/flow-gebaseerde generatieve modellen verder zal verleggen.

English

Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.

Eénstaps Latent-vrije Beeldgeneratie met Pixel Gemiddelde Stromen

One-step Latent-free Image Generation with Pixel Mean Flows

Samenvatting

Support