ChatPaper.aiChatPaper

NavDP: 特権情報ガイダンスを用いたシミュレーションから実世界へのナビゲーション拡散ポリシーの学習

NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

May 13, 2025
著者: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI

要旨

動的なオープンワールド環境におけるナビゲーションの学習は、ロボットにとって重要でありながらも困難なスキルである。これまでのほとんどの手法は、正確な位置推定とマッピングに依存するか、高価な実世界のデモンストレーションから学習している。本論文では、シミュレーションのみで訓練され、多様な実世界環境における異なるエンボディメントにゼロショット転移可能なエンドツーエンドフレームワークであるNavigation Diffusion Policy(NavDP)を提案する。NavDPのネットワークの鍵となる要素は、拡散ベースの軌道生成と軌道選択のための批評家関数の組み合わせであり、これらは共有ポリシートランスフォーマーからエンコードされた局所観測トークンにのみ条件付けられている。シミュレーションにおけるグローバル環境の特権情報を活用し、高品質なデモンストレーションをスケールアップして拡散ポリシーを訓練し、コントラスティブなネガティブサンプルを用いて批評家価値関数の目標を定式化する。我々のデモンストレーション生成アプローチは、1日あたり約2,500軌道/GPUを達成し、実世界のデータ収集よりも20倍効率的であり、1244シーンにわたる363.2kmの軌道を含む大規模なナビゲーションデータセットを生成する。このシミュレーションデータセットで訓練されたNavDPは、四足歩行、車輪型、ヒューマノイドロボットにおいて、多様な屋内および屋外環境で最先端の性能と一貫して優れた汎化能力を達成する。さらに、Gaussian Splattingを用いてドメイン内の実世界からシミュレーションへの微調整を行い、シミュレーションから実世界へのギャップをさらに埋めるための予備的な試みを提示する。実験結果は、このような実世界からシミュレーションへのデータを追加することで、汎化能力を損なうことなく成功率を30%向上させることができることを示している。
English
Learning navigation in dynamic open-world environments is an important yet challenging skill for robots. Most previous methods rely on precise localization and mapping or learn from expensive real-world demonstrations. In this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end framework trained solely in simulation and can zero-shot transfer to different embodiments in diverse real-world environments. The key ingredient of NavDP's network is the combination of diffusion-based trajectory generation and a critic function for trajectory selection, which are conditioned on only local observation tokens encoded from a shared policy transformer. Given the privileged information of the global environment in simulation, we scale up the demonstrations of good quality to train the diffusion policy and formulate the critic value function targets with contrastive negative samples. Our demonstration generation approach achieves about 2,500 trajectories/GPU per day, 20times more efficient than real-world data collection, and results in a large-scale navigation dataset with 363.2km trajectories across 1244 scenes. Trained with this simulation dataset, NavDP achieves state-of-the-art performance and consistently outstanding generalization capability on quadruped, wheeled, and humanoid robots in diverse indoor and outdoor environments. In addition, we present a preliminary attempt at using Gaussian Splatting to make in-domain real-to-sim fine-tuning to further bridge the sim-to-real gap. Experiments show that adding such real-to-sim data can improve the success rate by 30\% without hurting its generalization capability.

Summary

AI-Generated Summary

PDF12May 14, 2025