RT-2: Modelos Visión-Lenguaje-Acción que Transfieren Conocimiento Web al Control Robótico
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
July 28, 2023
Autores: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
cs.AI
Resumen
Estudiamos cómo los modelos de visión y lenguaje entrenados con datos a escala de Internet pueden incorporarse directamente en el control robótico de extremo a extremo para potenciar la generalización y habilitar el razonamiento semántico emergente. Nuestro objetivo es permitir que un único modelo entrenado de extremo a extremo aprenda tanto a mapear las observaciones del robot a acciones como a beneficiarse del preentrenamiento a gran escala en datos de lenguaje y visión-lenguaje de la web. Para ello, proponemos ajustar conjuntamente modelos de visión y lenguaje de última generación tanto en datos de trayectorias robóticas como en tareas de visión-lenguaje a escala de Internet, como la respuesta a preguntas visuales. A diferencia de otros enfoques, proponemos una receta simple y general para lograr este objetivo: para adaptar tanto las respuestas en lenguaje natural como las acciones robóticas al mismo formato, expresamos las acciones como tokens de texto y las incorporamos directamente al conjunto de entrenamiento del modelo de la misma manera que los tokens de lenguaje natural. Nos referimos a esta categoría de modelos como modelos de visión-lenguaje-acción (VLA) e instanciamos un ejemplo de dicho modelo, al que llamamos RT-2. Nuestra evaluación exhaustiva (6k pruebas de evaluación) muestra que nuestro enfoque conduce a políticas robóticas de alto rendimiento y permite que RT-2 obtenga una gama de capacidades emergentes del entrenamiento a escala de Internet. Esto incluye una generalización significativamente mejorada a objetos novedosos, la capacidad de interpretar comandos no presentes en los datos de entrenamiento del robot (como colocar un objeto sobre un número o icono específico) y la capacidad de realizar un razonamiento rudimentario en respuesta a los comandos del usuario (como recoger el objeto más pequeño o más grande, o el más cercano a otro objeto). Además, demostramos que la incorporación del razonamiento en cadena de pensamiento permite que RT-2 realice un razonamiento semántico en múltiples etapas, por ejemplo, determinar qué objeto recoger para usarlo como un martillo improvisado (una roca) o qué tipo de bebida es más adecuada para alguien que está cansado (una bebida energética).
English
We study how vision-language models trained on Internet-scale data can be
incorporated directly into end-to-end robotic control to boost generalization
and enable emergent semantic reasoning. Our goal is to enable a single
end-to-end trained model to both learn to map robot observations to actions and
enjoy the benefits of large-scale pretraining on language and vision-language
data from the web. To this end, we propose to co-fine-tune state-of-the-art
vision-language models on both robotic trajectory data and Internet-scale
vision-language tasks, such as visual question answering. In contrast to other
approaches, we propose a simple, general recipe to achieve this goal: in order
to fit both natural language responses and robotic actions into the same
format, we express the actions as text tokens and incorporate them directly
into the training set of the model in the same way as natural language tokens.
We refer to such category of models as vision-language-action models (VLA) and
instantiate an example of such a model, which we call RT-2. Our extensive
evaluation (6k evaluation trials) shows that our approach leads to performant
robotic policies and enables RT-2 to obtain a range of emergent capabilities
from Internet-scale training. This includes significantly improved
generalization to novel objects, the ability to interpret commands not present
in the robot training data (such as placing an object onto a particular number
or icon), and the ability to perform rudimentary reasoning in response to user
commands (such as picking up the smallest or largest object, or the one closest
to another object). We further show that incorporating chain of thought
reasoning allows RT-2 to perform multi-stage semantic reasoning, for example
figuring out which object to pick up for use as an improvised hammer (a rock),
or which type of drink is best suited for someone who is tired (an energy
drink).