가우시안보다 나은 소스 분포가 있을까? 이미지 플로우 매칭을 위한 소스 분포 탐구
Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching
December 20, 2025
저자: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI
초록
플로우 매칭은 유연한 소스 분포 선택이 가능한 강력한 생성 모델링 접근법으로 부상했습니다. 가우시안 분포가 일반적으로 사용되지만, 고차원 데이터 생성에서 더 나은 대안의 가능성은 대부분 탐구되지 않은 상태입니다. 본 논문에서는 해석 가능한 2차원 환경에서 고차원 기하학적 특성을 포착하는 새로운 2D 시뮬레이션을 제안하여, 학습 중인 플로우 매칭의 학습 동역학을 분석할 수 있도록 합니다. 이 분석을 바탕으로 우리는 플로우 매칭 동작에 대한 몇 가지 핵심 통찰을 도출했습니다: (1) 밀도 근사는 모드 불일치로 인해 역설적으로 성능을 저하시킬 수 있음, (2) 방향 정렬은 과도하게 집중될 경우 경로 얽힘으로 인해 어려움을 겪음, (3) 가우시안의 전방향적 포괄성이 견고한 학습을 보장함, (4) 노름 불일치는 상당한 학습 비용을 초래함. 이러한 통찰을 바탕으로, 우리는 노름 정렬 학습과 방향 가지치기 샘플링을 결합한 실용적인 프레임워크를 제안합니다. 이 접근법은 안정적인 플로우 학습에 필수적인 견고한 전방향적 감독을 유지하면서, 추론 시 데이터 희소 영역에서의 초기화를 제거합니다. 중요한 것은, 우리의 가지치기 전략이 가우시안 소스로 학습된 모든 플로우 매칭 모델에 적용 가능하여 재학습 없이도 즉각적인 성능 향상을 제공한다는 점입니다. 실험 평가를 통해 생성 품질과 샘플링 효율성 모두에서 지속적인 개선을 확인했습니다. 우리의 연구 결과는 소스 분포 설계에 대한 실용적인 통찰과 지침을 제공하며, 기존 플로우 매칭 모델 개선을 위한 즉시 적용 가능한 기술을 소개합니다. 우리의 코드는 https://github.com/kwanseokk/SourceFM에서 확인할 수 있습니다.
English
Flow matching has emerged as a powerful generative modeling approach with flexible choices of source distribution. While Gaussian distributions are commonly used, the potential for better alternatives in high-dimensional data generation remains largely unexplored. In this paper, we propose a novel 2D simulation that captures high-dimensional geometric properties in an interpretable 2D setting, enabling us to analyze the learning dynamics of flow matching during training. Based on this analysis, we derive several key insights about flow matching behavior: (1) density approximation can paradoxically degrade performance due to mode discrepancy, (2) directional alignment suffers from path entanglement when overly concentrated, (3) Gaussian's omnidirectional coverage ensures robust learning, and (4) norm misalignment incurs substantial learning costs. Building on these insights, we propose a practical framework that combines norm-aligned training with directionally-pruned sampling. This approach maintains the robust omnidirectional supervision essential for stable flow learning, while eliminating initializations in data-sparse regions during inference. Importantly, our pruning strategy can be applied to any flow matching model trained with a Gaussian source, providing immediate performance gains without the need for retraining. Empirical evaluations demonstrate consistent improvements in both generation quality and sampling efficiency. Our findings provide practical insights and guidelines for source distribution design and introduce a readily applicable technique for improving existing flow matching models. Our code is available at https://github.com/kwanseokk/SourceFM.