LoGoPlanner : Politique de Navigation Fondée sur la Localisation avec Géométrie Visuelle Métrique
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
December 22, 2025
papers.authors: Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang
cs.AI
papers.abstract
La planification de trajectoire dans des environnements non structurés est une capacité fondamentale et complexe pour les robots mobiles. Les approches modulaires traditionnelles souffrent de latence et d'erreurs en cascade entre les modules de perception, localisation, cartographie et planification. Les méthodes récentes d'apprentissage de bout en bout transforment directement les observations visuelles brutes en signaux de contrôle ou trajectoires, promettant une meilleure performance et efficacité dans des environnements ouverts. Cependant, la plupart des approches antérieures reposent encore sur des modules de localisation distincts nécessitant un étalonnage extrinsèque précis des capteurs pour l'estimation d'état, limitant ainsi la généralisation across embodiments et environnements. Nous présentons LoGoPlanner, un framework de navigation de bout en bout ancré dans la localisation, qui résout ces limitations en : (1) affinant un backbone visuel-géométrique à long horizon pour ancrer les prédictions avec une échelle métrique absolue, fournissant ainsi une estimation d'état implicite pour une localisation précise ; (2) reconstruisant la géométrie environnante à partir d'observations historiques pour offrir une perception environnementale dense et fine permettant d'éviter les obstacles de façon fiable ; et (3) conditionnant la politique sur la géométrie implicite amorcée par les tâches auxiliaires précitées, réduisant ainsi la propagation d'erreur. Nous évaluons LoGoPlanner en simulation et en conditions réelles, où sa conception entièrement de bout en bout réduit l'erreur cumulative tandis que la mémoire géométrique métrique améliore la cohérence de planification et l'évitement d'obstacles, entraînant une amélioration de plus de 27,3 % par rapport aux bases de référence à localisation idéale et une forte généralisation across embodiments et environnements. Le code et les modèles sont disponibles publiquement sur la {page du projet} https://steinate.github.io/logoplanner.github.io/.
English
Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3\% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the https://steinate.github.io/logoplanner.github.io/{project page}.