Gaussische Mengsel Stroom Afstemmingsmodellen
Gaussian Mixture Flow Matching Models
April 7, 2025
Auteurs: Hansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi
cs.AI
Samenvatting
Diffusiemodellen benaderen de denoisingsverdeling als een Gaussische verdeling en voorspellen het gemiddelde ervan, terwijl flow matching-modellen het Gaussische gemiddelde herparameteriseren als stroomsnelheid. Ze presteren echter minder goed bij bemonstering met weinig stappen vanwege discretisatiefouten en hebben de neiging oververzadigde kleuren te produceren onder classifier-free guidance (CFG). Om deze beperkingen aan te pakken, stellen we een nieuw Gaussian mixture flow matching (GMFlow)-model voor: in plaats van het gemiddelde te voorspellen, voorspelt GMFlow dynamische Gaussian mixture (GM)-parameters om een multi-modale stroomsnelheidsverdeling vast te leggen, die kan worden geleerd met een KL-divergentieverlies. We tonen aan dat GMFlow eerdere diffusie- en flow matching-modellen generaliseert waarbij een enkele Gaussische verdeling wordt geleerd met een L_2 denoising-verlies. Voor inferentie leiden we GM-SDE/ODE-oplossers af die gebruikmaken van analytische denoisingsverdelingen en snelheidsvelden voor precieze bemonstering met weinig stappen. Bovendien introduceren we een nieuw probabilistisch guidingschema dat de oververzadigingsproblemen van CFG vermindert en de kwaliteit van beeldgeneratie verbetert. Uitgebreide experimenten tonen aan dat GMFlow consistent beter presteert dan flow matching-baselines in generatiekwaliteit, met een precisie van 0,942 bij slechts 6 bemonsteringsstappen op ImageNet 256×256.
English
Diffusion models approximate the denoising distribution as a Gaussian and
predict its mean, whereas flow matching models reparameterize the Gaussian mean
as flow velocity. However, they underperform in few-step sampling due to
discretization error and tend to produce over-saturated colors under
classifier-free guidance (CFG). To address these limitations, we propose a
novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the
mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a
multi-modal flow velocity distribution, which can be learned with a KL
divergence loss. We demonstrate that GMFlow generalizes previous diffusion and
flow matching models where a single Gaussian is learned with an L_2 denoising
loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic
denoising distributions and velocity fields for precise few-step sampling.
Furthermore, we introduce a novel probabilistic guidance scheme that mitigates
the over-saturation issues of CFG and improves image generation quality.
Extensive experiments demonstrate that GMFlow consistently outperforms flow
matching baselines in generation quality, achieving a Precision of 0.942 with
only 6 sampling steps on ImageNet 256times256.Summary
AI-Generated Summary