ChatPaper.aiChatPaper

Appariement de flots d'images avec prise en compte de la géométrie

Geometry-Aware Image Flow Matching

May 24, 2026
Auteurs: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI

Résumé

Les avancées récentes dans les modèles génératifs soulignent la puissance de la modélisation prenant en compte la géométrie dans des contextes contraints par des variétés. Cependant, pour les images naturelles, le domaine reste confiné à des hypothèses euclidiennes, n'exploitant pas le potentiel des structures géométriques intrinsèques des données. Dans ce travail, nous étudions la géométrie des images naturelles et observons que l'information sémantique est principalement encodée dans les composantes directionnelles, tandis que les composantes normes peuvent être approximées par la moyenne globale. Cette propriété est valable à la fois dans les espaces RVB et latents, suggérant que les images naturelles peuvent être efficacement modélisées sur une hypersphère. En nous appuyant sur cette découverte, nous introduisons le Spherical Optimal Transport Flow Matching (SOT-CFM), qui utilise la distance angulaire, et le Spherical Flow Matching (SFM), qui contraint directement la dynamique sur la variété. Nos expériences montrent que ces méthodes prenant en compte la géométrie obtiennent des performances supérieures par rapport aux références euclidiennes. En fin de compte, ce travail offre une perspective nouvelle qui comble le fossé entre la modélisation basée sur les variétés riemanniennes et la génération d'images naturelles.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.