ChatPaper.aiChatPaper

NavDP: Sim-naar-Real Navigatie Diffusiebeleid Leren met Begeleiding door Bevoorrechte Informatie

NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

May 13, 2025
Auteurs: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI

Samenvatting

Navigatie leren in dynamische open-wereldomgevingen is een belangrijke maar uitdagende vaardigheid voor robots. De meeste eerdere methoden vertrouwen op precieze lokalisatie en mapping of leren van dure demonstraties in de echte wereld. In dit artikel stellen we de Navigation Diffusion Policy (NavDP) voor, een end-to-end framework dat uitsluitend in simulatie wordt getraind en zonder aanpassingen kan worden overgedragen naar verschillende uitvoeringen in diverse echte wereldomgevingen. Het belangrijkste ingrediënt van NavDP's netwerk is de combinatie van diffusiegebaseerde trajectgeneratie en een criticusfunctie voor trajectselectie, die alleen worden bepaald door lokale observatietokens die zijn gecodeerd vanuit een gedeelde policy transformer. Gegeven de geprivilegieerde informatie van de globale omgeving in simulatie, schalen we de demonstraties van hoge kwaliteit op om het diffusiebeleid te trainen en formuleren we de criticuswaardefunctiedoelen met contrastieve negatieve voorbeelden. Onze aanpak voor het genereren van demonstraties bereikt ongeveer 2.500 trajecten/GPU per dag, wat 20 keer efficiënter is dan het verzamelen van gegevens in de echte wereld, en resulteert in een grootschalige navigatiedataset met 363,2 km aan trajecten over 1244 scènes. Getraind met deze simulatie dataset, behaalt NavDP state-of-the-art prestaties en een consistent uitstekende generalisatiecapaciteit op viervoetige, wielgedreven en humanoïde robots in diverse binnen- en buitenomgevingen. Daarnaast presenteren we een eerste poging om Gaussian Splatting te gebruiken voor in-domein real-to-sim fine-tuning om de sim-to-real kloof verder te overbruggen. Experimenten tonen aan dat het toevoegen van dergelijke real-to-sim gegevens het slagingspercentage met 30\% kan verbeteren zonder de generalisatiecapaciteit aan te tasten.
English
Learning navigation in dynamic open-world environments is an important yet challenging skill for robots. Most previous methods rely on precise localization and mapping or learn from expensive real-world demonstrations. In this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end framework trained solely in simulation and can zero-shot transfer to different embodiments in diverse real-world environments. The key ingredient of NavDP's network is the combination of diffusion-based trajectory generation and a critic function for trajectory selection, which are conditioned on only local observation tokens encoded from a shared policy transformer. Given the privileged information of the global environment in simulation, we scale up the demonstrations of good quality to train the diffusion policy and formulate the critic value function targets with contrastive negative samples. Our demonstration generation approach achieves about 2,500 trajectories/GPU per day, 20times more efficient than real-world data collection, and results in a large-scale navigation dataset with 363.2km trajectories across 1244 scenes. Trained with this simulation dataset, NavDP achieves state-of-the-art performance and consistently outstanding generalization capability on quadruped, wheeled, and humanoid robots in diverse indoor and outdoor environments. In addition, we present a preliminary attempt at using Gaussian Splatting to make in-domain real-to-sim fine-tuning to further bridge the sim-to-real gap. Experiments show that adding such real-to-sim data can improve the success rate by 30\% without hurting its generalization capability.

Summary

AI-Generated Summary

PDF52May 14, 2025