ChatPaper.aiChatPaper

Geometriebewuste beeldstroommatching

Geometry-Aware Image Flow Matching

May 24, 2026
Auteurs: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI

Samenvatting

Recente vooruitgang in generatieve modellen benadrukt de kracht van geometriebewuste modellering in variëteit-gebonden omgevingen. Voor natuurlijke beelden blijft het vakgebied echter beperkt tot Euclidische aannames, zonder gebruik te maken van het potentieel van intrinsieke geometrische structuren binnen de data. In dit werk onderzoeken we de geometrie van natuurlijke beelden en observeren we dat semantische informatie voornamelijk is gecodeerd in directionele componenten, terwijl normcomponenten kunnen worden benaderd door het globale gemiddelde. Deze eigenschap geldt voor zowel RGB- als latente ruimtes, wat suggereert dat natuurlijke beelden effectief kunnen worden gemodelleerd op een hypersfeer. Voortbouwend op deze bevinding introduceren we Sferische Optimale Transport Stroom Matching (SOT-CFM), gebruikmakend van hoekafstand, en Sferische Stroom Matching (SFM), die dynamica direct op de variëteit beperkt. Onze experimenten tonen aan dat deze geometriebewuste methoden superieure prestaties leveren ten opzichte van Euclidische basislijnen. Dit werk biedt uiteindelijk een nieuw perspectief dat de kloof overbrugt tussen modellering op basis van Riemannse variëteiten en de generatie van natuurlijke beelden.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.