RT-2: Modelos Visão-Linguagem-Ação Transferem Conhecimento da Web para Controle Robótico

Resumo

Estudamos como modelos visão-linguagem treinados com dados em escala da Internet podem ser incorporados diretamente no controle robótico de ponta a ponta para impulsionar a generalização e permitir o raciocínio semântico emergente. Nosso objetivo é permitir que um único modelo treinado de ponta a ponta aprenda tanto a mapear observações do robô para ações quanto a aproveitar os benefícios do pré-treinamento em larga escala com dados de linguagem e visão-linguagem da web. Para isso, propomos co-ajustar modelos de última geração de visão-linguagem tanto em dados de trajetórias robóticas quanto em tarefas de visão-linguagem em escala da Internet, como a resposta a perguntas visuais. Em contraste com outras abordagens, propomos uma receita simples e geral para alcançar esse objetivo: para ajustar tanto respostas em linguagem natural quanto ações robóticas no mesmo formato, expressamos as ações como tokens de texto e as incorporamos diretamente no conjunto de treinamento do modelo da mesma forma que tokens de linguagem natural. Referimo-nos a essa categoria de modelos como modelos visão-linguagem-ação (VLA) e instanciamos um exemplo desse modelo, que chamamos de RT-2. Nossa extensa avaliação (6 mil testes de avaliação) mostra que nossa abordagem leva a políticas robóticas de alto desempenho e permite que o RT-2 obtenha uma gama de capacidades emergentes do treinamento em escala da Internet. Isso inclui uma melhoria significativa na generalização para novos objetos, a capacidade de interpretar comandos não presentes nos dados de treinamento do robô (como colocar um objeto em um número ou ícone específico) e a capacidade de realizar raciocínios rudimentares em resposta a comandos do usuário (como pegar o menor ou maior objeto, ou o mais próximo de outro objeto). Além disso, mostramos que a incorporação do raciocínio em cadeia de pensamento permite que o RT-2 realize raciocínios semânticos em múltiplas etapas, como, por exemplo, determinar qual objeto pegar para usar como um martelo improvisado (uma pedra) ou qual tipo de bebida é mais adequado para alguém que está cansado (uma bebida energética).

English

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).

RT-2: Modelos Visão-Linguagem-Ação Transferem Conhecimento da Web para Controle Robótico

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Resumo

Support