3D 확산 정책
3D Diffusion Policy
March 6, 2024
저자: Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
cs.AI
초록
모방 학습은 로봇에게 정교한 기술을 가르치는 효율적인 방법을 제공하지만, 복잡한 기술을 견고하고 일반화 가능하게 학습하기 위해서는 대량의 인간 시연 데이터가 필요합니다. 이러한 어려운 문제를 해결하기 위해, 우리는 3D 시각적 표현의 힘을 확산 정책(diffusion policies)에 통합한 새로운 시각적 모방 학습 접근법인 3D Diffusion Policy(DP3)를 제안합니다. DP3의 핵심 설계는 효율적인 포인트 인코더를 통해 희소 포인트 클라우드에서 추출된 간결한 3D 시각적 표현을 활용하는 것입니다. 72개의 시뮬레이션 작업을 포함한 실험에서 DP3는 단 10개의 시연만으로 대부분의 작업을 성공적으로 처리했으며, 기준선 대비 55.3%의 상대적 개선을 달성했습니다. 4개의 실제 로봇 작업에서 DP3는 각 작업당 40개의 시연만으로도 85%의 높은 성공률로 정밀한 제어를 보여주었으며, 공간, 시점, 외관, 인스턴스 등 다양한 측면에서 우수한 일반화 능력을 입증했습니다. 흥미롭게도, 실제 로봇 실험에서 DP3는 안전 요구 사항을 거의 위반하지 않았는데, 이는 인간의 개입이 자주 필요한 기준선 방법과 대조적입니다. 우리의 광범위한 평가는 실제 세계의 로봇 학습에서 3D 표현의 중요성을 강조합니다. 비디오, 코드, 데이터는 https://3d-diffusion-policy.github.io에서 확인할 수 있습니다.
English
Imitation learning provides an efficient way to teach robots dexterous
skills; however, learning complex skills robustly and generalizablely usually
consumes large amounts of human demonstrations. To tackle this challenging
problem, we present 3D Diffusion Policy (DP3), a novel visual imitation
learning approach that incorporates the power of 3D visual representations into
diffusion policies, a class of conditional action generative models. The core
design of DP3 is the utilization of a compact 3D visual representation,
extracted from sparse point clouds with an efficient point encoder. In our
experiments involving 72 simulation tasks, DP3 successfully handles most tasks
with just 10 demonstrations and surpasses baselines with a 55.3% relative
improvement. In 4 real robot tasks, DP3 demonstrates precise control with a
high success rate of 85%, given only 40 demonstrations of each task, and shows
excellent generalization abilities in diverse aspects, including space,
viewpoint, appearance, and instance. Interestingly, in real robot experiments,
DP3 rarely violates safety requirements, in contrast to baseline methods which
frequently do, necessitating human intervention. Our extensive evaluation
highlights the critical importance of 3D representations in real-world robot
learning. Videos, code, and data are available on
https://3d-diffusion-policy.github.io .