NavDP: Aprendizado de Política de Difusão para Navegação Sim-to-Real com Orientação de Informação Privilegiada

Resumo

Aprender navegação em ambientes dinâmicos de mundo aberto é uma habilidade importante, porém desafiadora, para robôs. A maioria dos métodos anteriores depende de localização e mapeamento precisos ou aprende a partir de demonstrações caras no mundo real. Neste artigo, propomos a Política de Difusão de Navegação (NavDP), uma estrutura de ponta a ponta treinada exclusivamente em simulação e capaz de transferir de forma zero-shot para diferentes embodimentos em diversos ambientes do mundo real. O componente chave da rede da NavDP é a combinação de geração de trajetórias baseada em difusão e uma função crítica para seleção de trajetórias, que são condicionadas apenas em tokens de observação local codificados a partir de um transformador de política compartilhado. Dada a informação privilegiada do ambiente global na simulação, escalamos as demonstrações de alta qualidade para treinar a política de difusão e formulamos os alvos da função de valor crítico com amostras negativas contrastivas. Nossa abordagem de geração de demonstrações alcança cerca de 2.500 trajetórias/GPU por dia, 20 vezes mais eficiente do que a coleta de dados no mundo real, e resulta em um grande conjunto de dados de navegação com 363,2 km de trajetórias em 1244 cenas. Treinada com este conjunto de dados de simulação, a NavDP alcança desempenho de ponta e capacidade de generalização consistentemente excepcional em robôs quadrúpedes, com rodas e humanoides em diversos ambientes internos e externos. Além disso, apresentamos uma tentativa preliminar de usar o Gaussian Splatting para realizar ajuste fino de real-para-sim no domínio, a fim de reduzir ainda mais a lacuna sim-para-real. Experimentos mostram que a adição de tais dados de real-para-sim pode melhorar a taxa de sucesso em 30\% sem prejudicar sua capacidade de generalização.

English

Learning navigation in dynamic open-world environments is an important yet challenging skill for robots. Most previous methods rely on precise localization and mapping or learn from expensive real-world demonstrations. In this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end framework trained solely in simulation and can zero-shot transfer to different embodiments in diverse real-world environments. The key ingredient of NavDP's network is the combination of diffusion-based trajectory generation and a critic function for trajectory selection, which are conditioned on only local observation tokens encoded from a shared policy transformer. Given the privileged information of the global environment in simulation, we scale up the demonstrations of good quality to train the diffusion policy and formulate the critic value function targets with contrastive negative samples. Our demonstration generation approach achieves about 2,500 trajectories/GPU per day, 20times more efficient than real-world data collection, and results in a large-scale navigation dataset with 363.2km trajectories across 1244 scenes. Trained with this simulation dataset, NavDP achieves state-of-the-art performance and consistently outstanding generalization capability on quadruped, wheeled, and humanoid robots in diverse indoor and outdoor environments. In addition, we present a preliminary attempt at using Gaussian Splatting to make in-domain real-to-sim fine-tuning to further bridge the sim-to-real gap. Experiments show that adding such real-to-sim data can improve the success rate by 30\% without hurting its generalization capability.

NavDP: Aprendizado de Política de Difusão para Navegação Sim-to-Real com Orientação de Informação Privilegiada

NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

Resumo

Support