NavDP: Aprendizaje de una Política de Difusión para Navegación de Simulación a Realidad con Guía de Información Privilegiada
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
Autores: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
Resumen
Aprender a navegar en entornos dinámicos y abiertos es una habilidad importante pero desafiante para los robots. La mayoría de los métodos anteriores dependen de la localización y mapeo precisos o aprenden a partir de demostraciones costosas en el mundo real. En este artículo, proponemos la Política de Difusión de Navegación (NavDP), un marco de trabajo de extremo a extremo entrenado únicamente en simulación y capaz de transferirse de manera inmediata (zero-shot) a diferentes configuraciones físicas en diversos entornos del mundo real. El componente clave de la red de NavDP es la combinación de la generación de trayectorias basada en difusión y una función crítica para la selección de trayectorias, las cuales están condicionadas únicamente por tokens de observación local codificados desde un transformador de política compartido. Dada la información privilegiada del entorno global en simulación, escalamos las demostraciones de alta calidad para entrenar la política de difusión y formulamos los objetivos de la función de valor crítico con muestras negativas contrastivas. Nuestro enfoque de generación de demostraciones logra aproximadamente 2,500 trayectorias/GPU por día, 20 veces más eficiente que la recolección de datos en el mundo real, y resulta en un conjunto de datos de navegación a gran escala con 363.2 km de trayectorias en 1244 escenas. Entrenado con este conjunto de datos de simulación, NavDP alcanza un rendimiento de vanguardia y una capacidad de generalización consistentemente sobresaliente en robots cuadrúpedos, con ruedas y humanoides en diversos entornos interiores y exteriores. Además, presentamos un intento preliminar de utilizar Gaussian Splatting para realizar un ajuste fino de real a sim dentro del dominio, con el fin de reducir aún más la brecha entre simulación y realidad. Los experimentos muestran que agregar dichos datos de real a sim puede mejorar la tasa de éxito en un 30\% sin afectar su capacidad de generalización.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.Summary
AI-Generated Summary