Geometriebewusstes Bildfluss-Matching

Zusammenfassung

Aktuelle Fortschritte bei generativen Modellen unterstreichen die Leistungsfähigkeit geometriebewusster Modellierung in mannigfaltigkeitsbeschränkten Umgebungen. Dennoch bleibt das Fachgebiet bei natürlichen Bildern auf euklidische Annahmen beschränkt und versäumt es, das Potenzial intrinsischer geometrischer Strukturen innerhalb der Daten auszuschöpfen. In dieser Arbeit untersuchen wir die Geometrie natürlicher Bilder und beobachten, dass semantische Informationen überwiegend in Richtungskomponenten kodiert sind, während Normkomponenten durch den globalen Mittelwert angenähert werden können. Diese Eigenschaft gilt sowohl für RGB- als auch für Latenträume, was darauf hindeutet, dass natürliche Bilder effektiv auf einer Hypersphäre modelliert werden können. Aufbauend auf dieser Erkenntnis führen wir das Sphärische Optimal-Transport-Fluss-Matching (SOT-CFM) ein, das den Winkelabstand nutzt, sowie das Sphärische Fluss-Matching (SFM), das die Dynamiken direkt auf der Mannigfaltigkeit einschränkt. Unsere Experimente zeigen, dass diese geometriebewussten Methoden im Vergleich zu euklidischen Basislinien eine überlegene Leistung erzielen. Letztlich bietet diese Arbeit eine neuartige Perspektive, die die Lücke zwischen riemannscher mannigfaltigkeitsbasierter Modellierung und der Generierung natürlicher Bilder überbrückt.

English

Recent advances in generative models highlight the power of geometry-aware modeling in manifold-constrained settings. Yet, for natural images, the field remains confined to Euclidean assumptions, failing to exploit the potential of intrinsic geometric structures within the data. In this work, we investigate the geometry of natural images and observe that semantic information is predominantly encoded in directional components, while norm components can be approximated by the global average. This property holds across both RGB and latent spaces, suggesting that natural images can be effectively modeled on a hypersphere. Building on this finding, we introduce Spherical Optimal Transport Flow Matching (SOT-CFM), which utilizes angular distance, and Spherical Flow Matching (SFM), which constrains dynamics directly on the manifold. Our experiments demonstrate that these geometry-aware methods achieve superior performance against Euclidean baselines. Ultimately, this work provides a novel perspective that bridges the gap between Riemannian manifold-based modeling and natural image generation.