PlatonicNav: Revelando Correspondência Semântica em Navegação com Mapas Topológicos Platônicos

Resumo

Navegação visual incorporada, onde um agente percebe um ambiente complexo e age para alcançar um objetivo a partir de informações sensoriais brutas, sustenta uma ampla gama de aplicações, como robótica de serviço doméstico, robótica assistiva e exploração autônoma em larga escala. No entanto, tentativas recentes de unificar navegação por visão e linguagem (VLN) e navegação por objetivo de objeto (ObjNav) permanecem no nível de fusão arquitetural, treinamento com tarefas mistas e pré-treinamento amplo de visão e linguagem, sem examinar se codificadores de visão e linguagem treinados independentemente já podem compartilhar uma estrutura semântica comum. Além disso, mesmo mapas topológicos centrados em objetos ainda fundamentam objetivos de linguagem por meio de supervisão cross-modal explícita, como CLIP ou grandes modelos de visão-linguagem, deixando em aberto se tal fundamentação é possível a partir de um mapa puramente construído por visão. Para abordar esses desafios, estendemos a Hipótese de Representação Platônica à navegação incorporada e reinterpretamos ObjNav apenas por visão, ObjNav cross-modal e VLN como três interfaces diferentes para o mesmo manifold semântico centrado em objetos. Introduzimos ainda PlatonicNav, uma estrutura livre de treinamento cujo Mapa Topológico Platônico funde distâncias geométricas e semânticas de nós de um codificador visual auto-supervisionado, e fundamenta objetivos de linguagem via correspondência cega sem qualquer dado pareado de visão-linguagem. Experimentos extensivos em benchmarks de simulação, incluindo HM3D-IIN, OVON e R2R-CE no MP3D, juntamente com implantação no Unitree Go2, demonstram que PlatonicNav generaliza entre tarefas, modalidades e corporificações sem treinamento cross-modal explícito. Código: https://github.com/AIGeeksGroup/PlatonicNav. Site: https://aigeeksgroup.github.io/PlatonicNav.

English

Embodied visual navigation, where an agent perceives a complex environment and acts to reach a goal from raw sensory input, underpins a wide range of applications such as household service robotics, assistive robotics, and large-scale autonomous exploration. However, recent attempts to unify vision-and-language navigation (VLN) and object goal navigation (ObjNav) remain at the level of architectural fusion, mixed-task training, and large vision-language pretraining, without examining whether independently trained vision and language encoders may already share a common semantic structure. Moreover, even object-centric topological maps still ground language goals through explicit cross-modal supervision such as CLIP or large vision-language models, leaving open whether such grounding is possible from a purely vision-built map. To address these challenges, we extend the Platonic Representation Hypothesis to embodied navigation and recast vision-only ObjNav, cross-modal ObjNav, and VLN as three different interfaces to the same object-centric semantic manifold. We further introduce PlatonicNav, a training-free framework whose Platonic Topological Map fuses geometric and semantic node distances from a self-supervised visual encoder, and grounds language goals via blind matching without any paired vision-language data. Extensive experiments on simulation benchmarks including HM3D-IIN, OVON, and R2R-CE on MP3D, together with deployment on Unitree Go2, demonstrate that PlatonicNav generalizes across tasks, modalities, and embodiments without explicit cross-modal training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.