PlatonicNav: Onthulling van semantische correspondentie in navigatie met Platonische topologische kaarten

Samenvatting

Belichaamde visuele navigatie, waarbij een agent een complexe omgeving waarneemt en handelt om een doel te bereiken op basis van ruwe sensorische input, vormt de basis voor een breed scala aan toepassingen, zoals huishoudelijke servicerobotica, ondersteunende robotica en grootschalige autonome verkenning. Recente pogingen om visie-en-taalnavigatie (VLN) en objectdoelnavigatie (ObjNav) te verenigen blijven echter op het niveau van architectonische fusie, gemengde taaktraining en grootschalige visie-taal voor training, zonder te onderzoeken of onafhankelijk getrainde visie- en taalencoders mogelijk al een gemeenschappelijke semantische structuur delen. Bovendien gronden zelfs objectgerichte topologische kaarten taaldoelen nog steeds via expliciete cross-modale supervisie, zoals CLIP of grote visie-taalmodellen, wat de vraag openlaat of een dergelijke grounding mogelijk is vanuit een puur op visie gebouwde kaart. Om deze uitdagingen aan te pakken, breiden we de Platonische Representatiehypothese uit naar belichaamde navigatie en herdefiniëren we visie-only ObjNav, cross-modale ObjNav en VLN als drie verschillende interfaces naar dezelfde objectgerichte semantische variëteit. Verder introduceren we PlatonicNav, een trainingsvrij raamwerk waarvan de Platonische Topologische Kaart geometrische en semantische knooppuntafstanden fuseert vanuit een zelfgesuperviseerde visuele encoder, en taaldoelen grondt via blinde matching zonder enige gepaarde visie-taaldata. Uitgebreide experimenten op simulatietests, waaronder HM3D-IIN, OVON en R2R-CE op MP3D, samen met implementatie op de Unitree Go2, tonen aan dat PlatonicNav generaliseert over taken, modaliteiten en belichamingen zonder expliciete cross-modale training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.

English

Embodied visual navigation, where an agent perceives a complex environment and acts to reach a goal from raw sensory input, underpins a wide range of applications such as household service robotics, assistive robotics, and large-scale autonomous exploration. However, recent attempts to unify vision-and-language navigation (VLN) and object goal navigation (ObjNav) remain at the level of architectural fusion, mixed-task training, and large vision-language pretraining, without examining whether independently trained vision and language encoders may already share a common semantic structure. Moreover, even object-centric topological maps still ground language goals through explicit cross-modal supervision such as CLIP or large vision-language models, leaving open whether such grounding is possible from a purely vision-built map. To address these challenges, we extend the Platonic Representation Hypothesis to embodied navigation and recast vision-only ObjNav, cross-modal ObjNav, and VLN as three different interfaces to the same object-centric semantic manifold. We further introduce PlatonicNav, a training-free framework whose Platonic Topological Map fuses geometric and semantic node distances from a self-supervised visual encoder, and grounds language goals via blind matching without any paired vision-language data. Extensive experiments on simulation benchmarks including HM3D-IIN, OVON, and R2R-CE on MP3D, together with deployment on Unitree Go2, demonstrate that PlatonicNav generalizes across tasks, modalities, and embodiments without explicit cross-modal training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.