PlatonicNav: Revelando la Correspondencia Semántica en Navegación con Mapas Topológicos Platónicos

Resumen

La navegación visual corporizada, donde un agente percibe un entorno complejo y actúa para alcanzar un objetivo a partir de datos sensoriales brutos, sustenta una amplia gama de aplicaciones como la robótica doméstica, la robótica asistencial y la exploración autónoma a gran escala. Sin embargo, los intentos recientes de unificar la navegación visual y lingüística (VLN) y la navegación con objetivo de objeto (ObjNav) se mantienen a nivel de fusión arquitectónica, entrenamiento con tareas mixtas y preentrenamiento visual-lingüístico a gran escala, sin examinar si los codificadores de visión y lenguaje entrenados de forma independiente ya comparten una estructura semántica común. Además, incluso los mapas topológicos centrados en objetos siguen fundamentando objetivos lingüísticos mediante supervisión explícita entre modalidades, como CLIP o grandes modelos de visión y lenguaje, dejando abierta la posibilidad de que dicha fundamentación sea posible a partir de un mapa construido puramente con visión. Para abordar estos desafíos, extendemos la Hipótesis de Representación Platónica a la navegación corporizada y reformulamos la ObjNav solo visual, la ObjNav multimodal y la VLN como tres interfaces diferentes hacia la misma variedad semántica centrada en objetos. Además, presentamos PlatonicNav, un marco sin entrenamiento cuyo Mapa Topológico Platónico fusiona distancias geométricas y semánticas de nodos provenientes de un codificador visual auto-supervisado, y fundamenta objetivos lingüísticos mediante emparejamiento ciego sin ningún dato pareado de visión y lenguaje. Experimentos exhaustivos en puntos de referencia de simulación como HM3D-IIN, OVON y R2R-CE en MP3D, junto con la implementación en Unitree Go2, demuestran que PlatonicNav generaliza a través de tareas, modalidades y formas corporizadas sin entrenamiento multimodal explícito. Código: https://github.com/AIGeeksGroup/PlatonicNav. Sitio web: https://aigeeksgroup.github.io/PlatonicNav.

English

Embodied visual navigation, where an agent perceives a complex environment and acts to reach a goal from raw sensory input, underpins a wide range of applications such as household service robotics, assistive robotics, and large-scale autonomous exploration. However, recent attempts to unify vision-and-language navigation (VLN) and object goal navigation (ObjNav) remain at the level of architectural fusion, mixed-task training, and large vision-language pretraining, without examining whether independently trained vision and language encoders may already share a common semantic structure. Moreover, even object-centric topological maps still ground language goals through explicit cross-modal supervision such as CLIP or large vision-language models, leaving open whether such grounding is possible from a purely vision-built map. To address these challenges, we extend the Platonic Representation Hypothesis to embodied navigation and recast vision-only ObjNav, cross-modal ObjNav, and VLN as three different interfaces to the same object-centric semantic manifold. We further introduce PlatonicNav, a training-free framework whose Platonic Topological Map fuses geometric and semantic node distances from a self-supervised visual encoder, and grounds language goals via blind matching without any paired vision-language data. Extensive experiments on simulation benchmarks including HM3D-IIN, OVON, and R2R-CE on MP3D, together with deployment on Unitree Go2, demonstrate that PlatonicNav generalizes across tasks, modalities, and embodiments without explicit cross-modal training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.