ChatPaper.aiChatPaper

RT-2: Vision-Sprache-Handlungsmodelle übertragen Web-Wissen auf die robotische Steuerung

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

July 28, 2023
Autoren: Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
cs.AI

Zusammenfassung

Wir untersuchen, wie Vision-Sprach-Modelle, die auf Internet-großen Daten trainiert wurden, direkt in die end-to-end Robotersteuerung integriert werden können, um die Generalisierung zu verbessern und emergentes semantisches Denken zu ermöglichen. Unser Ziel ist es, ein einziges end-to-end trainiertes Modell zu entwickeln, das sowohl lernt, Roboterbeobachtungen auf Aktionen abzubilden, als auch die Vorteile des groß angelegten Vortrainings auf Sprach- und Vision-Sprach-Daten aus dem Internet nutzen kann. Zu diesem Zweck schlagen wir vor, state-of-the-art Vision-Sprach-Modelle sowohl auf Roboter-Trajektorien-Daten als auch auf Internet-große Vision-Sprach-Aufgaben, wie visuelle Fragebeantwortung, gemeinsam zu feintunen. Im Gegensatz zu anderen Ansätzen schlagen wir ein einfaches, allgemeines Rezept vor, um dieses Ziel zu erreichen: Um sowohl natürliche Sprachantworten als auch Roboteraktionen in das gleiche Format zu bringen, drücken wir die Aktionen als Text-Tokens aus und integrieren sie direkt in den Trainingsdatensatz des Modells, genauso wie natürliche Sprach-Tokens. Wir bezeichnen diese Kategorie von Modellen als Vision-Sprache-Aktion-Modelle (VLA) und instanziieren ein Beispiel eines solchen Modells, das wir RT-2 nennen. Unsere umfangreiche Evaluation (6.000 Evaluationsversuche) zeigt, dass unser Ansatz zu leistungsfähigen Roboter-Policies führt und RT-2 ermöglicht, eine Reihe von emergenten Fähigkeiten aus dem Internet-großen Training zu erlangen. Dazu gehören eine deutlich verbesserte Generalisierung auf neue Objekte, die Fähigkeit, Befehle zu interpretieren, die nicht in den Roboter-Trainingsdaten vorhanden sind (wie das Platzieren eines Objekts auf einer bestimmten Zahl oder einem Symbol), und die Fähigkeit, rudimentäres Denken als Reaktion auf Benutzerbefehle durchzuführen (wie das Aufnehmen des kleinsten oder größten Objekts oder desjenigen, das einem anderen Objekt am nächsten ist). Wir zeigen weiterhin, dass die Integration von Chain-of-Thought-Denken es RT-2 ermöglicht, mehrstufiges semantisches Denken durchzuführen, zum Beispiel herauszufinden, welches Objekt als improvisierter Hammer aufgehoben werden soll (ein Stein), oder welche Art von Getränk am besten für jemanden geeignet ist, der müde ist (ein Energydrink).
English
We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).

Summary

AI-Generated Summary

PDF292December 15, 2024