ChatPaper.aiChatPaper

Emparejamiento de Flujo de Imágenes Geométricamente Consciente

Geometry-Aware Image Flow Matching

May 24, 2026
Autores: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI

Resumen

Los avances recientes en modelos generativos destacan el poder del modelado consciente de la geometría en entornos restringidos por variedades. Sin embargo, en el caso de las imágenes naturales, el campo sigue limitado a supuestos euclidianos, sin aprovechar el potencial de las estructuras geométricas intrínsecas presentes en los datos. En este trabajo, investigamos la geometría de las imágenes naturales y observamos que la información semántica se codifica predominantemente en componentes direccionales, mientras que los componentes de norma pueden aproximarse mediante el promedio global. Esta propiedad se mantiene tanto en el espacio RGB como en el latente, lo que sugiere que las imágenes naturales pueden modelarse eficazmente sobre una hiperesfera. Basándonos en este hallazgo, introducimos el Acoplamiento de Flujo por Transporte Óptimo Esférico (SOT-CFM), que utiliza la distancia angular, y el Acoplamiento de Flujo Esférico (SFM), que restringe la dinámica directamente sobre la variedad. Nuestros experimentos demuestran que estos métodos conscientes de la geometría logran un rendimiento superior en comparación con las líneas base euclidianas. Finalmente, este trabajo ofrece una perspectiva novedosa que tiende un puente entre el modelado basado en variedades riemannianas y la generación de imágenes naturales.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.