ChatPaper.aiChatPaper

RVT-2: 소수의 시연으로부터 정밀 조작 학습하기

RVT-2: Learning Precise Manipulation from Few Demonstrations

June 12, 2024
저자: Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox
cs.AI

초록

본 연구에서는 언어 지시를 통해 다수의 3D 조작 작업을 해결할 수 있는 로봇 시스템을 구축하는 방법을 탐구합니다. 산업 및 가정 환경에서 유용하게 사용되기 위해서는, 이러한 시스템이 적은 수의 시범만으로도 새로운 작업을 학습하고 정밀하게 해결할 수 있어야 합니다. PerAct와 RVT와 같은 기존 연구들이 이 문제를 다루었지만, 높은 정밀도를 요구하는 작업에서는 어려움을 겪는 경우가 많았습니다. 우리는 이러한 시스템을 더 효과적이고 정밀하며 빠르게 만드는 방법을 연구합니다. 아키텍처 및 시스템 수준의 개선을 결합하여, 우리는 RVT-2를 제안합니다. RVT-2는 다중 작업 3D 조작 모델로, 학습 속도가 이전 버전인 RVT보다 6배 빠르고 추론 속도는 2배 빠릅니다. RVT-2는 RLBench에서 새로운 최첨단 성능을 달성하며, 성공률을 65%에서 82%로 향상시켰습니다. RVT-2는 실제 환경에서도 효과적이며, 플러그를 집어서 끼우는 것과 같은 높은 정밀도를 요구하는 작업을 단 10번의 시범만으로 학습할 수 있습니다. 시각적 결과, 코드, 그리고 훈련된 모델은 다음 링크에서 제공됩니다: https://robotic-view-transformer-2.github.io/.
English
In this work, we study how to build a robotic system that can solve multiple 3D manipulation tasks given language instructions. To be useful in industrial and household domains, such a system should be capable of learning new tasks with few demonstrations and solving them precisely. Prior works, like PerAct and RVT, have studied this problem, however, they often struggle with tasks requiring high precision. We study how to make them more effective, precise, and fast. Using a combination of architectural and system-level improvements, we propose RVT-2, a multitask 3D manipulation model that is 6X faster in training and 2X faster in inference than its predecessor RVT. RVT-2 achieves a new state-of-the-art on RLBench, improving the success rate from 65% to 82%. RVT-2 is also effective in the real world, where it can learn tasks requiring high precision, like picking up and inserting plugs, with just 10 demonstrations. Visual results, code, and trained model are provided at: https://robotic-view-transformer-2.github.io/.

Summary

AI-Generated Summary

PDF71December 6, 2024