RT-2: Modelli Visione-Linguaggio-Azione Trasferiscono Conoscenza dal Web al Controllo Robotico

Abstract

Studiamo come i modelli visione-linguaggio addestrati su dati di scala Internet possano essere integrati direttamente nel controllo robotico end-to-end per potenziare la generalizzazione e abilitare il ragionamento semantico emergente. Il nostro obiettivo è consentire a un singolo modello addestrato end-to-end sia di apprendere a mappare le osservazioni del robot in azioni, sia di beneficiare del pre-addestramento su larga scala su dati linguistici e visione-linguaggio provenienti dal web. A tal fine, proponiamo di co-fine-tuneare modelli visione-linguaggio all'avanguardia sia su dati di traiettorie robotiche che su task visione-linguaggio di scala Internet, come il visual question answering. A differenza di altri approcci, proponiamo una ricetta semplice e generale per raggiungere questo obiettivo: per adattare sia le risposte in linguaggio naturale che le azioni robotiche allo stesso formato, esprimiamo le azioni come token di testo e le incorporiamo direttamente nel set di addestramento del modello nello stesso modo dei token di linguaggio naturale. Definiamo questa categoria di modelli come modelli visione-linguaggio-azione (VLA) e istanziamo un esempio di tale modello, che chiamiamo RT-2. La nostra valutazione estensiva (6k prove di valutazione) dimostra che il nostro approccio porta a politiche robotiche performanti e consente a RT-2 di ottenere una gamma di capacità emergenti dall'addestramento su scala Internet. Ciò include un miglioramento significativo nella generalizzazione a nuovi oggetti, la capacità di interpretare comandi non presenti nei dati di addestramento del robot (come posizionare un oggetto su un numero o un'icona specifica), e la capacità di eseguire un ragionamento rudimentale in risposta ai comandi dell'utente (come raccogliere l'oggetto più piccolo o più grande, o quello più vicino a un altro oggetto). Mostriamo inoltre che l'incorporazione del ragionamento a catena di pensiero consente a RT-2 di eseguire un ragionamento semantico multi-stadio, ad esempio capire quale oggetto raccogliere per usarlo come martello improvvisato (una roccia), o quale tipo di bevanda è più adatta per qualcuno che è stanco (una bevanda energetica).

English

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).

RT-2: Modelli Visione-Linguaggio-Azione Trasferiscono Conoscenza dal Web al Controllo Robotico

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Abstract

Support