로보캣: 로봇 매니퓰레이션을 위한 자기 개선 기반 에이전트
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation
June 20, 2023
저자: Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess
cs.AI
초록
다양한 로봇과 작업에서 얻은 이질적인 로봇 경험을 활용하여 새로운 기술과 구현체를 빠르게 습득할 수 있는 능력은 로봇 학습을 혁신할 잠재력을 가지고 있다. 최근 비전 및 언어 분야의 기초 모델(foundation model) 발전에 영감을 받아, 우리는 로봇 매니픽레이션을 위한 기초 에이전트(foundation agent)를 제안한다. 이 에이전트는 RoboCat으로 명명되었으며, 다중 구현체(multi-embodiment) 동작 레이블이 달린 시각적 경험을 소비할 수 있는 시각적 목표 조건 결정 트랜스포머(visual goal-conditioned decision transformer)이다. 이 데이터는 다양한 관측 및 동작 세트를 가진 시뮬레이션 및 실제 로봇 암에서 얻은 광범위한 모터 제어 기술을 포함한다. RoboCat을 통해 우리는 새로운 작업과 로봇에 대해 제로샷(zero-shot) 방식뿐만 아니라 대상 작업에 대해 단 100~1000개의 예시만을 사용한 적응을 통해 일반화할 수 있는 능력을 입증한다. 또한, 훈련된 모델 자체가 후속 훈련 반복을 위한 데이터를 생성하는 데 사용될 수 있음을 보여주어, 자율적인 개선 루프를 위한 기본 구성 요소를 제공한다. 우리는 시뮬레이션과 세 가지 다른 실제 로봇 구현체에서 대규모 평가를 통해 에이전트의 능력을 조사한다. 훈련 데이터를 확장하고 다양화함에 따라 RoboCat은 작업 간 전이(cross-task transfer)의 징후를 보일 뿐만 아니라 새로운 작업에 적응하는 데 더 효율적이 된다는 것을 발견한다.
English
The ability to leverage heterogeneous robotic experience from different
robots and tasks to quickly master novel skills and embodiments has the
potential to transform robot learning. Inspired by recent advances in
foundation models for vision and language, we propose a foundation agent for
robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned
decision transformer capable of consuming multi-embodiment action-labelled
visual experience. This data spans a large repertoire of motor control skills
from simulated and real robotic arms with varying sets of observations and
actions. With RoboCat, we demonstrate the ability to generalise to new tasks
and robots, both zero-shot as well as through adaptation using only 100--1000
examples for the target task. We also show how a trained model itself can be
used to generate data for subsequent training iterations, thus providing a
basic building block for an autonomous improvement loop. We investigate the
agent's capabilities, with large-scale evaluations both in simulation and on
three different real robot embodiments. We find that as we grow and diversify
its training data, RoboCat not only shows signs of cross-task transfer, but
also becomes more efficient at adapting to new tasks.