ChatPaper.aiChatPaper

Octo: 오픈소스 범용 로봇 정책

Octo: An Open-Source Generalist Robot Policy

May 20, 2024
저자: Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine
cs.AI

초록

다양한 로봇 데이터셋에 대해 사전 학습된 대규모 정책은 로봇 학습을 혁신할 잠재력을 가지고 있습니다: 새로운 정책을 처음부터 학습하는 대신, 이러한 범용 로봇 정책은 소량의 도메인 내 데이터만으로도 미세 조정이 가능하며, 넓은 범위로 일반화될 수 있습니다. 그러나 다양한 로봇 학습 시나리오, 환경 및 작업에 광범위하게 적용되기 위해서는, 이러한 정책이 다양한 센서와 액션 공간을 처리할 수 있어야 하며, 일반적으로 사용되는 다양한 로봇 플랫폼을 수용하고, 새로운 도메인에 쉽고 효율적으로 미세 조정될 수 있어야 합니다. 본 연구에서는 로봇 조작을 위한 오픈소스이며 광범위하게 적용 가능한 범용 정책 개발의 기반을 마련하고자 합니다. 첫 번째 단계로, 우리는 Open X-Embodiment 데이터셋(현재까지 가장 큰 로봇 조작 데이터셋)의 80만 개 궤적에 대해 학습된 대형 트랜스포머 기반 정책인 Octo를 소개합니다. Octo는 언어 명령이나 목표 이미지를 통해 지시받을 수 있으며, 새로운 센서 입력과 액션 공간을 가진 로봇 설정에 대해 표준 소비자용 GPU에서 몇 시간 내에 효과적으로 미세 조정될 수 있습니다. 9개의 로봇 플랫폼에 걸친 실험에서, Octo가 새로운 관찰 및 액션 공간에 효과적으로 미세 조정될 수 있는 다용도 정책 초기화로 기능함을 입증했습니다. 또한, 아키텍처부터 학습 데이터까지 Octo 모델의 설계 결정에 대한 상세한 절제 연구를 수행하여, 범용 로봇 모델 구축을 위한 향후 연구를 안내하고자 합니다.
English
Large policies pretrained on diverse robot datasets have the potential to transform robotic learning: instead of training new policies from scratch, such generalist robot policies may be finetuned with only a little in-domain data, yet generalize broadly. However, to be widely applicable across a range of robotic learning scenarios, environments, and tasks, such policies need to handle diverse sensors and action spaces, accommodate a variety of commonly used robotic platforms, and finetune readily and efficiently to new domains. In this work, we aim to lay the groundwork for developing open-source, widely applicable, generalist policies for robotic manipulation. As a first step, we introduce Octo, a large transformer-based policy trained on 800k trajectories from the Open X-Embodiment dataset, the largest robot manipulation dataset to date. It can be instructed via language commands or goal images and can be effectively finetuned to robot setups with new sensory inputs and action spaces within a few hours on standard consumer GPUs. In experiments across 9 robotic platforms, we demonstrate that Octo serves as a versatile policy initialization that can be effectively finetuned to new observation and action spaces. We also perform detailed ablations of design decisions for the Octo model, from architecture to training data, to guide future research on building generalist robot models.

Summary

AI-Generated Summary

PDF291December 15, 2024