LoGoPlanner: 메트릭 인지 시각 기하학을 활용한 지역화 기반 항법 정책
LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
December 22, 2025
저자: Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, Tai Wang, Yuan Shen, Jiangmiao Pang
cs.AI
초록
구조화되지 않은 환경에서의 경로 계획은 이동 로봇의 기본적이면서도 어려운 능력입니다. 기존의 모듈식 파이프라인은 인식, 위치 추정, 매핑 및 계획 모듈 간의 지연 및 오류 전파 문제를 겪습니다. 최근의 종단간 학습 방법은 원시 시각 관측을 제어 신호나 궤적에 직접 매핑하여 개방형 환경에서 더 높은 성능과 효율성을 약속합니다. 그러나 대부분의 기존 종단간 접근법은 여전히 정확한 센서 외부 파라미터 보정에 의존하는 별도의 위치 추정 모듈을 사용함으로써 다양한 구현체와 환경 간 일반화를 제한합니다. 본 연구에서는 이러한 한계를 해결하는 위치 추정 기반 종단간 주행 프레임워크인 LoGoPlanner를 소개합니다. 이 프레임워크는 (1) 장기 시각-기하학 백본을 미세 조정하여 절대적 미터 단위 스케일로 예측을 기반으로 함으로써 정확한 위치 추정을 위한 암묵적 상태 추정을 제공하고, (2) 과거 관측으로부터 주변 장면 기하학을 재구성하여 신뢰할 수 있는 장애물 회피를 위한 조밀하고 세분화된 환경 인식을 공급하며, (3) 상기 보조 작업으로 부트스트랩된 암묵적 기하학에 정책을 조건화함으로써 오류 전파를 줄입니다. 우리는 LoGoPlanner를 시뮬레이션과 실제 환경에서 평가했으며, 완전한 종단간 설계는 누적 오류를 줄이는 한편 미터 단위 인식 기하학 메모리는 계획 일관성과 장애물 회피 성능을 향상시켜 기준선 대비 27.3% 이상의 성능 향상과 다양한 구현체 및 환경에서의 강력한 일반화 능력을 입증했습니다. 코드와 모델은 https://steinate.github.io/logoplanner.github.io/{프로젝트 페이지}에서 공개되었습니다.
English
Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3\% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the https://steinate.github.io/logoplanner.github.io/{project page}.