ChatPaper.aiChatPaper

가우시안 혼합 흐름 정합 모델

Gaussian Mixture Flow Matching Models

April 7, 2025
저자: Hansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi
cs.AI

초록

디퓨전 모델은 노이즈 제거 분포를 가우시안으로 근사하고 그 평균을 예측하는 반면, 플로우 매칭 모델은 가우시안 평균을 플로우 속도로 재매개변수화합니다. 그러나 이들은 이산화 오류로 인해 적은 단계 샘플링에서 성능이 떨어지며, 분류자 없는 가이던스(CFG) 하에서 과포화된 색상을 생성하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 가우시안 혼합 플로우 매칭(GMFlow) 모델을 제안합니다: GMFlow는 평균을 예측하는 대신 다중 모드 플로우 속도 분포를 포착하기 위해 동적 가우시안 혼합(GM) 매개변수를 예측하며, 이는 KL 발산 손실로 학습될 수 있습니다. 우리는 GMFlow가 단일 가우시안을 L_2 노이즈 제거 손실로 학습하는 기존의 디퓨전 및 플로우 매칭 모델을 일반화함을 보여줍니다. 추론을 위해, 우리는 정확한 적은 단계 샘플링을 위해 분석적 노이즈 제거 분포와 속도 필드를 활용하는 GM-SDE/ODE 솔버를 도출합니다. 더 나아가, 우리는 CFG의 과포화 문제를 완화하고 이미지 생성 품질을 개선하는 새로운 확률적 가이던스 기법을 소개합니다. 광범위한 실험을 통해 GMFlow가 생성 품질에서 플로우 매칭 베이스라인을 지속적으로 능가하며, ImageNet 256×256에서 단 6개의 샘플링 단계로 0.942의 정밀도를 달성함을 입증합니다.
English
Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an L_2 denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256times256.

Summary

AI-Generated Summary

PDF122April 8, 2025