ChatPaper.aiChatPaper

RT-2: Модели "Зрение-Язык-Действие" переносят веб-знания в управление роботами

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

July 28, 2023
Авторы: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
cs.AI

Аннотация

Мы исследуем, как модели, обученные на данных масштаба интернета для обработки зрения и языка, могут быть напрямую интегрированы в сквозное управление роботами для улучшения обобщения и обеспечения семантического рассуждения. Наша цель — создать единую сквозно обученную модель, которая способна как преобразовывать наблюдения робота в действия, так и использовать преимущества масштабного предобучения на языковых и визуально-языковых данных из интернета. Для этого мы предлагаем совместно дообучать современные модели обработки зрения и языка как на данных траекторий роботов, так и на задачах масштаба интернета, таких как визуальное ответы на вопросы. В отличие от других подходов, мы предлагаем простой и универсальный метод для достижения этой цели: чтобы объединить естественные языковые ответы и действия роботов в единый формат, мы выражаем действия в виде текстовых токенов и включаем их непосредственно в обучающий набор модели, аналогично токенам естественного языка. Мы называем такие модели моделями "зрение-язык-действие" (VLA) и реализуем пример такой модели, которую называем RT-2. Наши обширные эксперименты (6 тысяч тестовых испытаний) показывают, что наш подход приводит к эффективным стратегиям управления роботами и позволяет RT-2 демонстрировать ряд новых возможностей, полученных благодаря обучению на данных масштаба интернета. Это включает значительное улучшение обобщения на новые объекты, способность интерпретировать команды, отсутствующие в обучающих данных робота (например, размещение объекта на определённом числе или иконке), и способность выполнять базовые рассуждения в ответ на команды пользователя (например, выбор самого маленького или большого объекта, или объекта, ближайшего к другому). Мы также показываем, что включение цепочки рассуждений позволяет RT-2 выполнять многоэтапное семантическое рассуждение, например, определять, какой объект поднять для использования в качестве импровизированного молотка (камень), или какой напиток лучше всего подходит для уставшего человека (энергетический напиток).
English
We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).
PDF303December 15, 2024