NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate

Abstract

L'apprendimento della navigazione in ambienti dinamici e aperti rappresenta un'abilità cruciale ma impegnativa per i robot. La maggior parte dei metodi precedenti si basa su una localizzazione e mappatura precisa o sull'apprendimento da dimostrazioni costose nel mondo reale. In questo articolo, proponiamo la Navigation Diffusion Policy (NavDP), un framework end-to-end addestrato esclusivamente in simulazione e in grado di trasferirsi in modalità zero-shot a diverse incarnazioni in ambienti real-world eterogenei. L'elemento chiave della rete di NavDP è la combinazione della generazione di traiettorie basata su diffusione e di una funzione critica per la selezione delle traiettorie, entrambe condizionate solo su token di osservazione locale codificati da un transformer di policy condiviso. Sfruttando le informazioni privilegiate dell'ambiente globale in simulazione, scaliamo le dimostrazioni di alta qualità per addestrare la policy di diffusione e formuliamo gli obiettivi della funzione valore critico con campioni negativi contrastivi. Il nostro approccio alla generazione di dimostrazioni raggiunge circa 2.500 traiettorie/GPU al giorno, 20 volte più efficiente rispetto alla raccolta di dati nel mondo reale, e produce un dataset di navigazione su larga scala con 363,2 km di traiettorie in 1244 scene. Addestrato con questo dataset simulato, NavDP raggiunge prestazioni all'avanguardia e una capacità di generalizzazione costantemente eccezionale su robot quadrupedi, a ruote e umanoidi in ambienti indoor e outdoor diversificati. Inoltre, presentiamo un tentativo preliminare di utilizzare il Gaussian Splatting per effettuare un fine-tuning real-to-sim in dominio, al fine di ridurre ulteriormente il divario sim-to-real. Gli esperimenti dimostrano che l'aggiunta di tali dati real-to-sim può migliorare il tasso di successo del 30% senza compromettere la capacità di generalizzazione.

English

Learning navigation in dynamic open-world environments is an important yet challenging skill for robots. Most previous methods rely on precise localization and mapping or learn from expensive real-world demonstrations. In this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end framework trained solely in simulation and can zero-shot transfer to different embodiments in diverse real-world environments. The key ingredient of NavDP's network is the combination of diffusion-based trajectory generation and a critic function for trajectory selection, which are conditioned on only local observation tokens encoded from a shared policy transformer. Given the privileged information of the global environment in simulation, we scale up the demonstrations of good quality to train the diffusion policy and formulate the critic value function targets with contrastive negative samples. Our demonstration generation approach achieves about 2,500 trajectories/GPU per day, 20times more efficient than real-world data collection, and results in a large-scale navigation dataset with 363.2km trajectories across 1244 scenes. Trained with this simulation dataset, NavDP achieves state-of-the-art performance and consistently outstanding generalization capability on quadruped, wheeled, and humanoid robots in diverse indoor and outdoor environments. In addition, we present a preliminary attempt at using Gaussian Splatting to make in-domain real-to-sim fine-tuning to further bridge the sim-to-real gap. Experiments show that adding such real-to-sim data can improve the success rate by 30\% without hurting its generalization capability.

NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate

NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

Abstract

Support