NavDP: Aprendizado de Política de Difusão para Navegação Sim-to-Real com Orientação de Informação Privilegiada
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Autores: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Resumo
Aprender navegação em ambientes dinâmicos de mundo aberto é uma habilidade importante, porém desafiadora, para robôs. A maioria dos métodos anteriores depende de localização e mapeamento precisos ou aprende a partir de demonstrações caras no mundo real. Neste artigo, propomos a Política de Difusão de Navegação (NavDP), uma estrutura de ponta a ponta treinada exclusivamente em simulação e capaz de transferir de forma zero-shot para diferentes embodimentos em diversos ambientes do mundo real. O componente chave da rede da NavDP é a combinação de geração de trajetórias baseada em difusão e uma função crítica para seleção de trajetórias, que são condicionadas apenas em tokens de observação local codificados a partir de um transformador de política compartilhado. Dada a informação privilegiada do ambiente global na simulação, escalamos as demonstrações de alta qualidade para treinar a política de difusão e formulamos os alvos da função de valor crítico com amostras negativas contrastivas. Nossa abordagem de geração de demonstrações alcança cerca de 2.500 trajetórias/GPU por dia, 20 vezes mais eficiente do que a coleta de dados no mundo real, e resulta em um grande conjunto de dados de navegação com 363,2 km de trajetórias em 1244 cenas. Treinada com este conjunto de dados de simulação, a NavDP alcança desempenho de ponta e capacidade de generalização consistentemente excepcional em robôs quadrúpedes, com rodas e humanoides em diversos ambientes internos e externos. Além disso, apresentamos uma tentativa preliminar de usar o Gaussian Splatting para realizar ajuste fino de real-para-sim no domínio, a fim de reduzir ainda mais a lacuna sim-para-real. Experimentos mostram que a adição de tais dados de real-para-sim pode melhorar a taxa de sucesso em 30\% sem prejudicar sua capacidade de generalização.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.