NavDP: 특권 정보 지도를 활용한 시뮬레이션-실제 환경 간 탐색 확산 정책 학습
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
May 13, 2025
저자: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
cs.AI
초록
동적 개방형 환경에서의 탐색 학습은 로봇에게 중요하면서도 어려운 기술입니다. 대부분의 기존 방법은 정확한 위치 추정 및 매핑에 의존하거나 비용이 많이 드는 실제 세계 시연 데이터로부터 학습합니다. 본 논문에서는 시뮬레이션에서만 훈련된 후 다양한 실제 환경에서 다른 형태의 로봇으로 제로샷 전이가 가능한 종단 간 프레임워크인 Navigation Diffusion Policy(NavDP)를 제안합니다. NavDP 네트워크의 핵심 요소는 확산 기반 궤적 생성과 궤적 선택을 위한 비평가 함수의 결합으로, 이는 공유 정책 트랜스포머에서 인코딩된 지역 관측 토큰에만 조건화됩니다. 시뮬레이션에서 전역 환경의 특권 정보를 활용하여 고품질 시연 데이터를 대규모로 확장하여 확산 정책을 훈련하고, 대조적 부정 샘플을 사용하여 비평가 값 함수 목표를 공식화합니다. 우리의 시연 데이터 생성 접근법은 하루에 GPU당 약 2,500개의 궤적을 생성하며, 이는 실제 세계 데이터 수집보다 20배 더 효율적이고, 1244개의 장면에서 363.2km에 달하는 대규모 탐색 데이터셋을 생성합니다. 이 시뮬레이션 데이터셋으로 훈련된 NavDP는 다양한 실내외 환경에서 사족 보행, 휠드, 휴머노이드 로봇에 대해 최첨단 성능과 탁월한 일반화 능력을 일관되게 달성합니다. 또한, 시뮬레이션과 실제 간 격차를 더욱 줄이기 위해 Gaussian Splatting을 사용한 도메인 내 실제-시뮬레이션 미세 조정을 시도한 예비 실험을 제시합니다. 실험 결과, 이러한 실제-시뮬레이션 데이터를 추가하면 일반화 능력을 저해하지 않으면서 성공률을 30% 향상시킬 수 있음을 보여줍니다.
English
Learning navigation in dynamic open-world environments is an important yet
challenging skill for robots. Most previous methods rely on precise
localization and mapping or learn from expensive real-world demonstrations. In
this paper, we propose the Navigation Diffusion Policy (NavDP), an end-to-end
framework trained solely in simulation and can zero-shot transfer to different
embodiments in diverse real-world environments. The key ingredient of NavDP's
network is the combination of diffusion-based trajectory generation and a
critic function for trajectory selection, which are conditioned on only local
observation tokens encoded from a shared policy transformer. Given the
privileged information of the global environment in simulation, we scale up the
demonstrations of good quality to train the diffusion policy and formulate the
critic value function targets with contrastive negative samples. Our
demonstration generation approach achieves about 2,500 trajectories/GPU per
day, 20times more efficient than real-world data collection, and results in
a large-scale navigation dataset with 363.2km trajectories across 1244 scenes.
Trained with this simulation dataset, NavDP achieves state-of-the-art
performance and consistently outstanding generalization capability on
quadruped, wheeled, and humanoid robots in diverse indoor and outdoor
environments. In addition, we present a preliminary attempt at using Gaussian
Splatting to make in-domain real-to-sim fine-tuning to further bridge the
sim-to-real gap. Experiments show that adding such real-to-sim data can improve
the success rate by 30\% without hurting its generalization capability.Summary
AI-Generated Summary