LoGoPlanner:メトリック認識視覚幾何学に基づく局所化対応ナビゲーション方策
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
December 22, 2025
著者: Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang
cs.AI
要旨
非構造化環境における軌道計画は、移動ロボットの基本的かつ困難な能力である。従来のモジュール型パイプラインは、知覚・自己位置推定・地図構築・計画の各モジュール間で遅延や誤り連鎖が生じやすい。近年のend-to-end学習手法は、生の視覚観測を直接制御信号や軌道に写像し、現実世界での高い性能と効率を約束する。しかし、既存のend-to-end手法の多くは、正確なセンサ外部キャリブレーションに依存する独立した自己位置推定モジュールを依然として必要としており、ロボット実体や環境を跨ぐ汎化性を制限している。本研究では、これらの課題を解決するLoGoPlannerを提案する。この位置推定基盤型end-to-endナビゲーション枠組みは、(1)絶対メートル尺度で予測を接地する長期視覚幾何学バックボーンのファインチューニングにより、正確な自己位置推定のための暗黙的状态推定を実現、(2)履歴観測からの周辺シーン幾何学の再構築により、信頼性の高い障害物回避のための密で細かな環境認識を提供、(3)上記補助タスクでブートストラップされた暗黙的幾何学をポリシーに条件付けることで、誤り伝播を低減する。LoGoPlannerをシミュレーションと実環境で評価した結果、完全end-to-end設計が累積誤差を低減し、メートル尺度を意識した幾何学メモリが計画の一貫性と障害物回避を強化することで、理想的位置推定を仮定したベースライン比27.3%以上の性能向上と、ロボット実体や環境を跨ぐ強力な汎化性を実証した。コードとモデルはhttps://steinate.github.io/logoplanner.github.io/で公開されている。
English
Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3\% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the https://steinate.github.io/logoplanner.github.io/{project page}.