LoGoPlanner: Política de Navegação Fundamentada na Localização com Geometria Visual Consciente de Métricas

Resumo

O planejamento de trajetória em ambientes não estruturados é uma capacidade fundamental e desafiadora para robôs móveis. Os pipelines modulares tradicionais sofrem com latência e erros em cascata entre os módulos de perceção, localização, mapeamento e planeamento. Métodos recentes de aprendizagem de ponta a ponta mapeiam observações visuais brutas diretamente para sinais de controlo ou trajetórias, prometendo maior desempenho e eficiência em ambientes de mundo aberto. No entanto, a maioria das abordagens anteriores de ponta a ponta ainda depende de módulos de localização separados que necessitam de calibração extrínseca precisa de sensores para estimativa do estado próprio, limitando assim a generalização entre diferentes implementações e ambientes. Apresentamos o LoGoPlanner, uma estrutura de navegação de ponta a ponta baseada em localização que aborda estas limitações através de: (1) *fine-tuning* de uma rede base de geometria visual de longo horizonte para fundamentar previsões com escala métrica absoluta, fornecendo assim estimativa de estado implícita para localização precisa; (2) reconstrução da geometria da cena circundante a partir de observações históricas para fornecer consciência ambiental densa e granular para uma evitamento de obstáculos fiável; e (3) condicionamento da política em geometria implícita inicializada pelas tarefas auxiliares mencionadas, reduzindo assim a propagação de erros. Avaliamos o LoGoPlanner em ambientes de simulação e do mundo real, onde o seu design totalmente de ponta a ponta reduz o erro cumulativo, enquanto a memória geométrica com noção métrica melhora a consistência do planeamento e a evitamento de obstáculos, resultando numa melhoria superior a 27,3% face a *baselines* com localização idealizada e uma forte generalização entre implementações e ambientes. O código e os modelos foram disponibilizados publicamente na [página do projeto](https://steinate.github.io/logoplanner.github.io/).

English

Trajectory planning in unstructured environments is a fundamental and challenging capability for mobile robots. Traditional modular pipelines suffer from latency and cascading errors across perception, localization, mapping, and planning modules. Recent end-to-end learning methods map raw visual observations directly to control signals or trajectories, promising greater performance and efficiency in open-world settings. However, most prior end-to-end approaches still rely on separate localization modules that depend on accurate sensor extrinsic calibration for self-state estimation, thereby limiting generalization across embodiments and environments. We introduce LoGoPlanner, a localization-grounded, end-to-end navigation framework that addresses these limitations by: (1) finetuning a long-horizon visual-geometry backbone to ground predictions with absolute metric scale, thereby providing implicit state estimation for accurate localization; (2) reconstructing surrounding scene geometry from historical observations to supply dense, fine-grained environmental awareness for reliable obstacle avoidance; and (3) conditioning the policy on implicit geometry bootstrapped by the aforementioned auxiliary tasks, thereby reducing error propagation.We evaluate LoGoPlanner in both simulation and real-world settings, where its fully end-to-end design reduces cumulative error while metric-aware geometry memory enhances planning consistency and obstacle avoidance, leading to more than a 27.3\% improvement over oracle-localization baselines and strong generalization across embodiments and environments. The code and models have been made publicly available on the https://steinate.github.io/logoplanner.github.io/{project page}.