NavDP: Lernen einer Sim-to-Real-Navigationsdiffusionspolitik mit privilegierter Informationsführung
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Autoren: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Zusammenfassung
Das Erlernen der Navigation in dynamischen, offenen Umgebungen ist eine wichtige, aber herausfordernde Fähigkeit für Roboter. Die meisten bisherigen Methoden stützen sich auf präzise Lokalisierung und Kartierung oder lernen aus teuren Demonstrationen in der realen Welt. In diesem Artikel schlagen wir die Navigation Diffusion Policy (NavDP) vor, ein End-to-End-Framework, das ausschließlich in der Simulation trainiert wird und ohne Anpassung auf verschiedene Embodiments in diversen realen Umgebungen übertragen werden kann. Der Schlüsselbestandteil des NavDP-Netzwerks ist die Kombination aus diffusionsbasierter Trajektoriengenerierung und einer Kritikerfunktion für die Trajektorienauswahl, die nur auf lokalen Beobachtungstokens basieren, die von einem gemeinsamen Policy-Transformer kodiert werden. Unter Nutzung der privilegierten Informationen der globalen Umgebung in der Simulation skalieren wir die Demonstrationen hoher Qualität, um die Diffusionspolicy zu trainieren, und formulieren die Zielwerte der Kritikerwertfunktion mit kontrastiven Negativbeispielen. Unser Ansatz zur Demonstrationgenerierung erreicht etwa 2.500 Trajektorien/GPU pro Tag, was 20-mal effizienter ist als die Datenerfassung in der realen Welt, und resultiert in einem groß angelegten Navigationsdatensatz mit 363,2 km Trajektorien über 1244 Szenen hinweg. Mit diesem Simulationsdatensatz trainiert, erreicht NavDP Spitzenleistungen und zeigt durchweg herausragende Generalisierungsfähigkeit bei vierbeinigen, radgetriebenen und humanoiden Robotern in diversen Innen- und Außenumgebungen. Darüber hinaus präsentieren wir einen ersten Versuch, Gaussian Splatting für eine domänenspezifische Feinabstimmung von Real-zu-Sim zu verwenden, um die Sim-zu-Real-Lücke weiter zu schließen. Experimente zeigen, dass die Hinzufügung solcher Real-zu-Sim-Daten die Erfolgsrate um 30\% verbessern kann, ohne die Generalisierungsfähigkeit zu beeinträchtigen.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.Summary
AI-Generated Summary