NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Autori: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Abstract
L'apprendimento della navigazione in ambienti dinamici e aperti rappresenta un'abilità cruciale ma impegnativa per i robot. La maggior parte dei metodi precedenti si basa su una localizzazione e mappatura precisa o sull'apprendimento da dimostrazioni costose nel mondo reale. In questo articolo, proponiamo la Navigation Diffusion Policy (NavDP), un framework end-to-end addestrato esclusivamente in simulazione e in grado di trasferirsi in modalità zero-shot a diverse incarnazioni in ambienti real-world eterogenei. L'elemento chiave della rete di NavDP è la combinazione della generazione di traiettorie basata su diffusione e di una funzione critica per la selezione delle traiettorie, entrambe condizionate solo su token di osservazione locale codificati da un transformer di policy condiviso. Sfruttando le informazioni privilegiate dell'ambiente globale in simulazione, scaliamo le dimostrazioni di alta qualità per addestrare la policy di diffusione e formuliamo gli obiettivi della funzione valore critico con campioni negativi contrastivi. Il nostro approccio alla generazione di dimostrazioni raggiunge circa 2.500 traiettorie/GPU al giorno, 20 volte più efficiente rispetto alla raccolta di dati nel mondo reale, e produce un dataset di navigazione su larga scala con 363,2 km di traiettorie in 1244 scene. Addestrato con questo dataset simulato, NavDP raggiunge prestazioni all'avanguardia e una capacità di generalizzazione costantemente eccezionale su robot quadrupedi, a ruote e umanoidi in ambienti indoor e outdoor diversificati. Inoltre, presentiamo un tentativo preliminare di utilizzare il Gaussian Splatting per effettuare un fine-tuning real-to-sim in dominio, al fine di ridurre ulteriormente il divario sim-to-real. Gli esperimenti dimostrano che l'aggiunta di tali dati real-to-sim può migliorare il tasso di successo del 30% senza compromettere la capacità di generalizzazione.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.