Gaussische Mengsel Stroom Afstemmingsmodellen

Samenvatting

Diffusiemodellen benaderen de denoisingsverdeling als een Gaussische verdeling en voorspellen het gemiddelde ervan, terwijl flow matching-modellen het Gaussische gemiddelde herparameteriseren als stroomsnelheid. Ze presteren echter minder goed bij bemonstering met weinig stappen vanwege discretisatiefouten en hebben de neiging oververzadigde kleuren te produceren onder classifier-free guidance (CFG). Om deze beperkingen aan te pakken, stellen we een nieuw Gaussian mixture flow matching (GMFlow)-model voor: in plaats van het gemiddelde te voorspellen, voorspelt GMFlow dynamische Gaussian mixture (GM)-parameters om een multi-modale stroomsnelheidsverdeling vast te leggen, die kan worden geleerd met een KL-divergentieverlies. We tonen aan dat GMFlow eerdere diffusie- en flow matching-modellen generaliseert waarbij een enkele Gaussische verdeling wordt geleerd met een L_2 denoising-verlies. Voor inferentie leiden we GM-SDE/ODE-oplossers af die gebruikmaken van analytische denoisingsverdelingen en snelheidsvelden voor precieze bemonstering met weinig stappen. Bovendien introduceren we een nieuw probabilistisch guidingschema dat de oververzadigingsproblemen van CFG vermindert en de kwaliteit van beeldgeneratie verbetert. Uitgebreide experimenten tonen aan dat GMFlow consistent beter presteert dan flow matching-baselines in generatiekwaliteit, met een precisie van 0,942 bij slechts 6 bemonsteringsstappen op ImageNet 256×256.

English

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an L_2 denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256times256.

Gaussische Mengsel Stroom Afstemmingsmodellen

Gaussian Mixture Flow Matching Models

Samenvatting

Support