RT-2: Vision-Language-Actie-Modellen Transfereren Webkennis naar Robotbesturing

Samenvatting

We bestuderen hoe vision-language-modellen die getraind zijn op internet-schaal data direct kunnen worden geïntegreerd in end-to-end robotbesturing om generalisatie te bevorderen en emergent semantisch redeneren mogelijk te maken. Ons doel is om een enkel end-to-end getraind model in staat te stellen zowel robotobservaties naar acties te mappen als te profiteren van grootschalige voorafgaande training op taal- en vision-language-data van het web. Hiertoe stellen we voor om state-of-the-art vision-language-modellen gezamenlijk te fine-tunen op zowel robot-trajectdata als internet-schaal vision-language-taken, zoals visuele vraagbeantwoording. In tegenstelling tot andere benaderingen, stellen we een eenvoudig, algemeen recept voor om dit doel te bereiken: om zowel natuurlijke taalreacties als robotacties in hetzelfde formaat te passen, drukken we de acties uit als teksttokens en integreren we deze direct in de trainingsset van het model, op dezelfde manier als natuurlijke taal-tokens. We verwijzen naar deze categorie modellen als vision-language-action-modellen (VLA) en concretiseren een voorbeeld van zo'n model, dat we RT-2 noemen. Onze uitgebreide evaluatie (6k evaluatietrials) toont aan dat onze aanpak leidt tot performant robotbeleid en RT-2 in staat stelt om een reeks emergente vaardigheden te verkrijgen uit internet-schaal training. Dit omvat aanzienlijk verbeterde generalisatie naar nieuwe objecten, het vermogen om commando's te interpreteren die niet aanwezig zijn in de robot-trainingsdata (zoals het plaatsen van een object op een bepaald nummer of icoon), en het vermogen om rudimentair redeneren uit te voeren in reactie op gebruikerscommando's (zoals het oppakken van het kleinste of grootste object, of het object dat het dichtst bij een ander object ligt). We laten verder zien dat het incorporeren van chain of thought-redeneren RT-2 in staat stelt om meerfasig semantisch redeneren uit te voeren, bijvoorbeeld uitzoeken welk object opgepakt moet worden om te gebruiken als een geïmproviseerde hamer (een steen), of welk type drank het meest geschikt is voor iemand die moe is (een energiedrank).

English

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).

RT-2: Vision-Language-Actie-Modellen Transfereren Webkennis naar Robotbesturing

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Samenvatting

Support