기하학 인식 이미지 플로우 매칭
Geometry-Aware Image Flow Matching
May 24, 2026
저자: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI
초록
최근 생성 모델의 발전은 다양체 제약 환경에서 기하학 인식 모델링의 강력함을 부각시키고 있다. 그러나 자연 이미지의 경우, 해당 분야는 여전히 유클리드 가정에 국한되어 데이터 내 내재적 기하 구조의 잠재력을 활용하지 못하고 있다. 본 연구에서는 자연 이미지의 기하학적 특성을 조사하여, 의미 정보가 주로 방향 성분에 인코딩되는 반면 노름 성분은 전역 평균으로 근사될 수 있음을 관찰하였다. 이러한 특성은 RGB 공간과 잠재 공간 모두에서 유지되며, 자연 이미지가 초구 위에서 효과적으로 모델링될 수 있음을 시사한다. 이 발견을 바탕으로, 각도 거리를 활용하는 구형 최적 수송 흐름 매칭(SOT-CFM)과 다양체 상에서 직접 동역학을 제약하는 구형 흐름 매칭(SFM)을 소개한다. 실험 결과, 이러한 기하학 인식 방법이 유클리드 기준선 대비 우수한 성능을 달성함을 입증한다. 궁극적으로, 본 연구는 리만 다양체 기반 모델링과 자연 이미지 생성 사이의 간극을 해소하는 새로운 관점을 제시한다.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.