NavDP: Обучение диффузионной политики навигации от симуляции к реальности с использованием привилегированной информации
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Авторы: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Аннотация
Обучение навигации в динамичных открытых средах является важным, но сложным навыком для роботов. Большинство существующих методов полагаются на точную локализацию и картографирование или обучаются на основе дорогостоящих демонстраций в реальном мире. В данной работе мы предлагаем Navigation Diffusion Policy (NavDP) — сквозную архитектуру, обученную исключительно в симуляции, которая способна к переносу без дообучения на различные платформы в разнообразных реальных условиях. Ключевым компонентом сети NavDP является комбинация генерации траекторий на основе диффузии и функции-критика для выбора траекторий, которые зависят только от локальных токенов наблюдений, закодированных с помощью общего трансформера политики. Используя привилегированную информацию о глобальной среде в симуляции, мы масштабируем генерацию высококачественных демонстраций для обучения диффузионной политики и формулируем целевые значения функции-критика с использованием контрастных негативных примеров. Наш подход к генерации демонстраций позволяет достичь около 2500 траекторий на GPU в день, что в 20 раз эффективнее сбора данных в реальном мире, и создает крупномасштабный набор данных для навигации, содержащий 363,2 км траекторий в 1244 сценах. Обучаясь на этом симуляционном наборе данных, NavDP демонстрирует наилучшую производительность и выдающуюся способность к обобщению на четвероногих, колесных и гуманоидных роботах в разнообразных внутренних и внешних средах. Кроме того, мы представляем предварительную попытку использования Gaussian Splatting для тонкой настройки в области реального-к-симуляции, чтобы дополнительно сократить разрыв между симуляцией и реальностью. Эксперименты показывают, что добавление таких данных реального-к-симуляции может повысить успешность на 30%, не ухудшая способность к обобщению.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.Summary
AI-Generated Summary