RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique

Résumé

Nous étudions comment les modèles vision-langage entraînés sur des données à l'échelle d'Internet peuvent être intégrés directement dans le contrôle robotique de bout en bout pour améliorer la généralisation et permettre un raisonnement sémantique émergent. Notre objectif est de permettre à un seul modèle entraîné de bout en bout d'apprendre à la fois à mapper les observations du robot en actions et de bénéficier des avantages d'un pré-entraînement à grande échelle sur des données de langage et vision-langage provenant du web. Pour ce faire, nous proposons de co-affiner des modèles vision-langage de pointe à la fois sur des données de trajectoires robotiques et sur des tâches vision-langage à l'échelle d'Internet, telles que la réponse à des questions visuelles. Contrairement à d'autres approches, nous proposons une recette simple et générale pour atteindre cet objectif : afin de faire correspondre à la fois les réponses en langage naturel et les actions robotiques dans le même format, nous exprimons les actions sous forme de tokens textuels et les intégrons directement dans l'ensemble d'entraînement du modèle de la même manière que les tokens de langage naturel. Nous qualifions cette catégorie de modèles de modèles vision-langage-action (VLA) et en instancions un exemple, que nous appelons RT-2. Notre évaluation approfondie (6 000 essais d'évaluation) montre que notre approche conduit à des politiques robotiques performantes et permet à RT-2 d'acquérir une gamme de capacités émergentes grâce à l'entraînement à l'échelle d'Internet. Cela inclut une amélioration significative de la généralisation à de nouveaux objets, la capacité à interpréter des commandes absentes des données d'entraînement du robot (comme placer un objet sur un nombre ou une icône particulière), et la capacité à effectuer un raisonnement rudimentaire en réponse aux commandes de l'utilisateur (comme ramasser le plus petit ou le plus grand objet, ou celui le plus proche d'un autre objet). Nous montrons en outre que l'intégration d'un raisonnement en chaîne de pensée permet à RT-2 d'effectuer un raisonnement sémantique en plusieurs étapes, par exemple déterminer quel objet ramasser pour l'utiliser comme un marteau improvisé (une pierre), ou quel type de boisson est le mieux adapté à quelqu'un qui est fatigué (une boisson énergisante).

English

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).

RT-2 : Les modèles vision-langage-action transfèrent les connaissances du web au contrôle robotique

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Résumé

Support