RT-2: 웹 지식을 로봇 제어로 전이하는 시각-언어-행동 모델
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
July 28, 2023
저자: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
cs.AI
초록
인터넷 규모의 데이터로 훈련된 시각-언어 모델이 어떻게 종단 간 로봇 제어에 직접 통합되어 일반화를 촉진하고 새로운 의미적 추론을 가능하게 할 수 있는지 연구합니다. 우리의 목표는 단일 종단 간 훈련 모델이 로봇 관측을 동작으로 매핑하는 방법을 학습함과 동시에 웹에서 수집된 대규모 언어 및 시각-언어 데이터에 대한 사전 훈련의 이점을 누릴 수 있도록 하는 것입니다. 이를 위해, 우리는 최첨단 시각-언어 모델을 로봇 궤적 데이터와 인터넷 규모의 시각-언어 작업(예: 시각적 질문 응답)에 대해 공동으로 미세 조정할 것을 제안합니다. 다른 접근법과 달리, 우리는 이 목표를 달성하기 위한 간단하고 일반적인 방법을 제안합니다: 자연어 응답과 로봇 동작을 동일한 형식으로 맞추기 위해, 동작을 텍스트 토큰으로 표현하고 이를 자연어 토큰과 동일한 방식으로 모델의 훈련 세트에 직접 통합합니다. 우리는 이러한 범주의 모델을 시각-언어-동작 모델(VLA)이라고 부르며, 이를 구현한 예시 모델을 RT-2라고 명명합니다. 우리의 광범위한 평가(6,000회 평가 시험)는 우리의 접근 방식이 성능이 뛰어난 로봇 정책을 이끌어내고 RT-2가 인터넷 규모의 훈련으로부터 다양한 새로운 능력을 획득할 수 있음을 보여줍니다. 이는 새로운 객체에 대한 일반화 능력의 상당한 개선, 로봇 훈련 데이터에 없는 명령(예: 특정 숫자나 아이콘 위에 객체를 놓기)을 해석하는 능력, 사용자 명령에 대한 기본적인 추론(예: 가장 작거나 큰 객체를 선택하거나 다른 객체에 가장 가까운 객체를 선택하기)을 수행하는 능력을 포함합니다. 우리는 또한 사고의 연쇄(chain of thought) 추론을 통합함으로써 RT-2가 다단계 의미적 추론을 수행할 수 있음을 보여줍니다. 예를 들어, 임시 망치로 사용할 객체(바위)를 선택하거나, 피곤한 사람에게 가장 적합한 음료 종류(에너지 드링크)를 결정하는 등의 작업을 수행할 수 있습니다.
English
We study how vision-language models trained on Internet-scale data can be
incorporated directly into end-to-end robotic control to boost generalization
and enable emergent semantic reasoning. Our goal is to enable a single
end-to-end trained model to both learn to map robot observations to actions and
enjoy the benefits of large-scale pretraining on language and vision-language
data from the web. To this end, we propose to co-fine-tune state-of-the-art
vision-language models on both robotic trajectory data and Internet-scale
vision-language tasks, such as visual question answering. In contrast to other
approaches, we propose a simple, general recipe to achieve this goal: in order
to fit both natural language responses and robotic actions into the same
format, we express the actions as text tokens and incorporate them directly
into the training set of the model in the same way as natural language tokens.
We refer to such category of models as vision-language-action models (VLA) and
instantiate an example of such a model, which we call RT-2. Our extensive
evaluation (6k evaluation trials) shows that our approach leads to performant
robotic policies and enables RT-2 to obtain a range of emergent capabilities
from Internet-scale training. This includes significantly improved
generalization to novel objects, the ability to interpret commands not present
in the robot training data (such as placing an object onto a particular number
or icon), and the ability to perform rudimentary reasoning in response to user
commands (such as picking up the smallest or largest object, or the one closest
to another object). We further show that incorporating chain of thought
reasoning allows RT-2 to perform multi-stage semantic reasoning, for example
figuring out which object to pick up for use as an improvised hammer (a rock),
or which type of drink is best suited for someone who is tired (an energy
drink).Summary
AI-Generated Summary