ChatPaper.aiChatPaper

Gaußsche Mischungs-Flow-Matching-Modelle

Gaussian Mixture Flow Matching Models

April 7, 2025
Autoren: Hansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi
cs.AI

Zusammenfassung

Diffusionsmodelle approximieren die Entrauschungsverteilung als Gaußverteilung und prognostizieren deren Mittelwert, während Flow-Matching-Modelle den Gaußschen Mittelwert als Flussgeschwindigkeit umparametrisieren. Allerdings schneiden sie bei der Abtastung mit wenigen Schritten aufgrund von Diskretisierungsfehlern schlechter ab und neigen dazu, unter Classifier-Free Guidance (CFG) übermäßig gesättigte Farben zu erzeugen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Gaussian Mixture Flow Matching (GMFlow)-Modell vor: Anstatt den Mittelwert vorherzusagen, prognostiziert GMFlow dynamische Gaußsche Mischungs-(GM)-Parameter, um eine multimodale Flussgeschwindigkeitsverteilung zu erfassen, die mit einem KL-Divergenzverlust gelernt werden kann. Wir zeigen, dass GMFlow frühere Diffusions- und Flow-Matching-Modelle verallgemeinert, bei denen eine einzelne Gaußverteilung mit einem L_2-Entrauschungsverlust gelernt wird. Für die Inferenz leiten wir GM-SDE/ODE-Löser ab, die analytische Entrauschungsverteilungen und Geschwindigkeitsfelder für eine präzise Abtastung mit wenigen Schritten nutzen. Darüber hinaus führen wir ein neuartiges probabilistisches Guidance-Schema ein, das die Übersättigungsprobleme von CFG mildert und die Bildgenerierungsqualität verbessert. Umfangreiche Experimente zeigen, dass GMFlow in der Generierungsqualität durchgängig besser abschneidet als Flow-Matching-Baselines und eine Präzision von 0,942 mit nur 6 Abtastschritten auf ImageNet 256×256 erreicht.
English
Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an L_2 denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256times256.

Summary

AI-Generated Summary

PDF122April 8, 2025