PlatonicNav: Aufdeckung semantischer Korrespondenz in der Navigation mit platonischen topologischen Karten

Zusammenfassung

Verkörperte visuelle Navigation, bei der ein Agent eine komplexe Umgebung wahrnimmt und aus rohen sensorischen Eingaben handelt, um ein Ziel zu erreichen, liegt einer Vielzahl von Anwendungen zugrunde, wie z. B. Haushaltsdienstrobotik, assistive Robotik und groß angelegte autonome Erkundung. Jüngste Versuche, die visuell-sprachliche Navigation (VLN) und die Objektzielnavigation (ObjNav) zu vereinheitlichen, verbleiben jedoch auf der Ebene der architektonischen Fusion, des gemischten Aufgaben-Trainings und des großen visuell-sprachlichen Vortrainings, ohne zu untersuchen, ob unabhängig voneinander trainierte visuelle und sprachliche Encoder bereits eine gemeinsame semantische Struktur aufweisen. Darüber hinaus verankern selbst objektzentrische topologische Karten Sprachziele durch explizite cross-modale Überwachung wie CLIP oder große visuell-sprachliche Modelle, wobei offen bleibt, ob eine solche Verankerung von einer rein visuell erstellten Karte aus möglich ist. Um diese Herausforderungen zu bewältigen, erweitern wir die Platonische Repräsentationshypothese auf die verkörperte Navigation und betrachten die rein visuelle ObjNav, die cross-modale ObjNav und die VLN als drei verschiedene Schnittstellen zu derselben objektzentrischen semantischen Mannigfaltigkeit. Wir stellen weiterhin PlatonicNav vor, ein trainierfreies Framework, dessen Platonische Topologische Karte geometrische und semantische Knotenabstände aus einem selbstüberwachten visuellen Encoder fusioniert und Sprachziele durch blindes Matching ohne gepaarte visuell-sprachliche Daten verankert. Umfangreiche Experimente auf Simulations-Benchmarks, darunter HM3D-IIN, OVON und R2R-CE auf MP3D, zusammen mit dem Einsatz auf Unitree Go2, zeigen, dass PlatonicNav ohne explizites cross-modales Training über Aufgaben, Modalitäten und Embodiments hinweg generalisiert. Code: https://github.com/AIGeeksGroup/PlatonicNav. Webseite: https://aigeeksgroup.github.io/PlatonicNav.

English

Embodied visual navigation, where an agent perceives a complex environment and acts to reach a goal from raw sensory input, underpins a wide range of applications such as household service robotics, assistive robotics, and large-scale autonomous exploration. However, recent attempts to unify vision-and-language navigation (VLN) and object goal navigation (ObjNav) remain at the level of architectural fusion, mixed-task training, and large vision-language pretraining, without examining whether independently trained vision and language encoders may already share a common semantic structure. Moreover, even object-centric topological maps still ground language goals through explicit cross-modal supervision such as CLIP or large vision-language models, leaving open whether such grounding is possible from a purely vision-built map. To address these challenges, we extend the Platonic Representation Hypothesis to embodied navigation and recast vision-only ObjNav, cross-modal ObjNav, and VLN as three different interfaces to the same object-centric semantic manifold. We further introduce PlatonicNav, a training-free framework whose Platonic Topological Map fuses geometric and semantic node distances from a self-supervised visual encoder, and grounds language goals via blind matching without any paired vision-language data. Extensive experiments on simulation benchmarks including HM3D-IIN, OVON, and R2R-CE on MP3D, together with deployment on Unitree Go2, demonstrate that PlatonicNav generalizes across tasks, modalities, and embodiments without explicit cross-modal training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.