PlatonicNav: Раскрытие семантического соответствия в навигации с помощью платонических топологических карт

Аннотация

Воплощенная визуальная навигация, при которой агент воспринимает сложную среду и действует для достижения цели на основе сырых сенсорных данных, лежит в основе широкого спектра приложений, таких как бытовая сервисная робототехника, ассистивная робототехника и крупномасштабное автономное исследование. Однако недавние попытки объединить навигацию на основе зрения и языка (VLN) и навигацию к целевым объектам (ObjNav) остаются на уровне архитектурного слияния, смешанного обучения задачам и крупномасштабного предварительного обучения на основе зрения и языка, без анализа того, могут ли независимо обученные энкодеры зрения и языка уже иметь общую семантическую структуру. Более того, даже объектно-ориентированные топологические карты все еще связывают языковые цели через явное межмодальное обучение, такое как CLIP или большие модели зрения и языка, оставляя открытым вопрос о возможности такого связывания на основе чисто визуальной карты. Для решения этих проблем мы расширяем Гипотезу платонического представления на воплощенную навигацию и переопределяем чисто визуальную ObjNav, межмодальную ObjNav и VLN как три различных интерфейса к одному и тому же объектно-ориентированному семантическому многообразию. Кроме того, мы представляем PlatonicNav — фреймворк без обучения, чья Платоническая топологическая карта объединяет геометрические и семантические расстояния узлов от самоконтролируемого визуального энкодера и связывает языковые цели посредством слепого сопоставления без каких-либо парных данных «зрение-язык». Обширные эксперименты на симуляционных бенчмарках, включая HM3D-IIN, OVON и R2R-CE на MP3D, а также развертывание на Unitree Go2, демонстрируют, что PlatonicNav обобщается на различные задачи, модальности и воплощения без явного межмодального обучения. Код: https://github.com/AIGeeksGroup/PlatonicNav. Веб-сайт: https://aigeeksgroup.github.io/PlatonicNav.

English

Embodied visual navigation, where an agent perceives a complex environment and acts to reach a goal from raw sensory input, underpins a wide range of applications such as household service robotics, assistive robotics, and large-scale autonomous exploration. However, recent attempts to unify vision-and-language navigation (VLN) and object goal navigation (ObjNav) remain at the level of architectural fusion, mixed-task training, and large vision-language pretraining, without examining whether independently trained vision and language encoders may already share a common semantic structure. Moreover, even object-centric topological maps still ground language goals through explicit cross-modal supervision such as CLIP or large vision-language models, leaving open whether such grounding is possible from a purely vision-built map. To address these challenges, we extend the Platonic Representation Hypothesis to embodied navigation and recast vision-only ObjNav, cross-modal ObjNav, and VLN as three different interfaces to the same object-centric semantic manifold. We further introduce PlatonicNav, a training-free framework whose Platonic Topological Map fuses geometric and semantic node distances from a self-supervised visual encoder, and grounds language goals via blind matching without any paired vision-language data. Extensive experiments on simulation benchmarks including HM3D-IIN, OVON, and R2R-CE on MP3D, together with deployment on Unitree Go2, demonstrate that PlatonicNav generalizes across tasks, modalities, and embodiments without explicit cross-modal training. Code: https://github.com/AIGeeksGroup/PlatonicNav. Website: https://aigeeksgroup.github.io/PlatonicNav.