ChatPaper.aiChatPaper

ガウス混合フローマッチングモデル

Gaussian Mixture Flow Matching Models

April 7, 2025
著者: Hansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi
cs.AI

要旨

拡散モデルは、ノイズ除去分布をガウス分布として近似し、その平均を予測します。一方、フローマッチングモデルは、ガウス平均をフロー速度として再パラメータ化します。しかし、これらのモデルは、離散化誤差のため少ステップサンプリングでは性能が低下し、クラスファリーフリーガイダンス(CFG)下では過飽和色を生成する傾向があります。これらの制限に対処するため、我々は新しいガウス混合フローマッチング(GMFlow)モデルを提案します:GMFlowは平均を予測する代わりに、動的ガウス混合(GM)パラメータを予測し、多モードのフロー速度分布を捉えます。これはKLダイバージェンス損失で学習可能です。我々は、GMFlowが、L_2ノイズ除去損失で単一ガウスを学習する従来の拡散モデルとフローマッチングモデルを一般化することを示します。推論では、解析的ノイズ除去分布と速度場を活用したGM-SDE/ODEソルバーを導出し、正確な少ステップサンプリングを実現します。さらに、CFGの過飽和問題を緩和し、画像生成品質を向上させる新しい確率的ガイダンススキームを導入します。広範な実験により、GMFlowがフローマッチングベースラインを生成品質で一貫して上回り、ImageNet 256×256でわずか6サンプリングステップで0.942のPrecisionを達成することが実証されました。
English
Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an L_2 denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256times256.

Summary

AI-Generated Summary

PDF122April 8, 2025