ChatPaper.aiChatPaper

Correspondência de Fluxo de Imagem Consciente da Geometria

Geometry-Aware Image Flow Matching

May 24, 2026
Autores: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI

Resumo

Avanços recentes em modelos generativos destacam o poder da modelagem consciente da geometria em configurações restritas por variedades. No entanto, para imagens naturais, o campo permanece confinado a suposições euclidianas, não explorando o potencial das estruturas geométricas intrínsecas presentes nos dados. Neste trabalho, investigamos a geometria de imagens naturais e observamos que a informação semântica é predominantemente codificada em componentes direcionais, enquanto as componentes de norma podem ser aproximadas pela média global. Essa propriedade se mantém tanto em espaços RGB quanto latentes, sugerindo que imagens naturais podem ser efetivamente modeladas em uma hiperesfera. Com base nessa descoberta, introduzimos a Combinação de Fluxo por Transporte Ótimo Esférico (SOT-CFM), que utiliza distância angular, e a Combinação de Fluxo Esférico (SFM), que restringe a dinâmica diretamente na variedade. Nossos experimentos demonstram que esses métodos conscientes da geometria alcançam desempenho superior em relação às linhas de base euclidianas. Por fim, este trabalho oferece uma nova perspectiva que preenche a lacuna entre a modelagem baseada em variedades Riemannianas e a geração de imagens naturais.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.