ChatPaper.aiChatPaper

Геометрически-осознанное потоковое сопоставление изображений

Geometry-Aware Image Flow Matching

May 24, 2026
Авторы: Junho Lee, Kwanseok Kim, Joonseok Lee
cs.AI

Аннотация

Недавние достижения в области порождающих моделей подчеркивают эффективность моделирования с учетом геометрии в условиях, налагаемых ограничениями многообразий. Однако для естественных изображений данная область по-прежнему ограничивается евклидовыми предположениями, не используя потенциал внутренних геометрических структур данных. В данной работе мы исследуем геометрию естественных изображений и обнаруживаем, что семантическая информация преимущественно кодируется в компонентах направления, в то время как компоненты нормы могут быть аппроксимированы глобальным средним. Это свойство выполняется как в пространстве RGB, так и в латентных пространствах, что позволяет предположить, что естественные изображения могут быть эффективно смоделированы на гиперсфере. Основываясь на этом результате, мы представляем сферическое согласование потоков с оптимальным транспортом (SOT-CFM), использующее угловое расстояние, и сферическое согласование потоков (SFM), ограничивающее динамику непосредственно на многообразии. Наши эксперименты показывают, что эти методы, учитывающие геометрию, достигают превосходной производительности по сравнению с евклидовыми базовыми моделями. В конечном счете, данная работа предлагает новый взгляд, преодолевающий разрыв между моделированием на основе римановых многообразий и генерацией естественных изображений.
English
Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.