NavDP : Apprentissage d'une politique de navigation par diffusion sim-to-real guidée par des informations privilégiées
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Auteurs: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Résumé
L'apprentissage de la navigation dans des environnements ouverts et dynamiques représente une compétence cruciale mais complexe pour les robots. La plupart des méthodes existantes s'appuient sur une localisation et une cartographie précises ou sur des démonstrations coûteuses dans le monde réel. Dans cet article, nous proposons la Navigation Diffusion Policy (NavDP), un cadre de bout en bout entraîné uniquement en simulation et capable de transférer sans adaptation (zero-shot) à différentes incarnations dans divers environnements réels. L'élément clé du réseau de NavDP est la combinaison d'une génération de trajectoires basée sur la diffusion et d'une fonction critique pour la sélection de trajectoires, toutes deux conditionnées par des tokens d'observation locaux encodés à partir d'un transformateur de politique partagé. Grâce aux informations privilégiées de l'environnement global en simulation, nous augmentons la production de démonstrations de haute qualité pour entraîner la politique de diffusion et formulons les cibles de la fonction de valeur critique avec des échantillons négatifs contrastifs. Notre approche de génération de démonstrations permet d'obtenir environ 2 500 trajectoires par GPU par jour, soit 20 fois plus efficace que la collecte de données dans le monde réel, et aboutit à un jeu de données de navigation à grande échelle comprenant 363,2 km de trajectoires réparties sur 1 244 scènes. Entraîné avec ce jeu de données de simulation, NavDP atteint des performances de pointe et démontre une capacité de généralisation exceptionnelle sur des robots quadrupèdes, à roues et humanoïdes dans divers environnements intérieurs et extérieurs. De plus, nous présentons une tentative préliminaire d'utilisation du Gaussian Splatting pour effectuer un ajustement fin (fine-tuning) en domaine réel vers simulation afin de réduire davantage l'écart entre simulation et réalité. Les expériences montrent que l'ajout de telles données réel-vers-simulation peut améliorer le taux de réussite de 30 % sans compromettre la capacité de généralisation.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.Summary
AI-Generated Summary