RoboVQA: Multimodales Langzeit-Denken für die Robotik
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Autoren: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Zusammenfassung
Wir präsentieren ein skalierbares, bottom-up und intrinsisch diversifiziertes Datenerfassungsschema, das für hochrangiges Denken mit langen und mittleren Zeithorizonten verwendet werden kann und einen 2,2-fach höheren Durchsatz im Vergleich zu traditionellen, eng gefassten top-down Schritt-für-Schritt-Erfassungsmethoden aufweist. Wir sammeln realistische Daten, indem wir Benutzeranfragen innerhalb von drei kompletten Bürogebäuden ausführen und dabei mehrere Roboter- und menschliche Embodiments verwenden. Mit diesen Daten zeigen wir, dass Modelle, die auf allen Embodiments trainiert wurden, besser abschneiden als solche, die nur auf Roboter-Daten trainiert wurden, selbst wenn sie ausschließlich anhand von Roboter-Episoden bewertet werden. Wir stellen fest, dass es bei einem festen Erfassungsbudget vorteilhaft ist, kostengünstigere menschliche Erfassung in Kombination mit Roboter-Erfassung zu nutzen. Wir veröffentlichen einen großen und hochgradig diversifizierten Datensatz (29.520 einzigartige Anweisungen) namens RoboVQA, der 829.502 (Video, Text)-Paare für visuelles Frage-Antworten mit Fokus auf Robotik enthält. Wir zeigen auch, wie die Bewertung von realen Roboter-Experimenten mit einem Interventionsmechanismus die Durchführung von Aufgaben bis zum Abschluss ermöglicht, was eine Einsatzfähigkeit mit menschlicher Aufsicht auch bei Unvollkommenheiten gewährleistet und gleichzeitig eine einzige Leistungsmetrik liefert. Wir demonstrieren ein einzelnes videobasiertes Modell namens RoboVQA-VideoCoCa, das auf unserem Datensatz trainiert wurde und in der Lage ist, eine Vielzahl von fundierten hochrangigen Denkaufgaben in breiten realistischen Umgebungen durchzuführen, mit einer kognitiven Interventionsrate, die 46 % niedriger ist als der Zero-Shot State-of-the-Art Visual Language Model (VLM)-Baseline, und das in der Lage ist, echte Roboter durch langfristige Aufgaben zu führen. Die Leistungslücke zu Zero-Shot State-of-the-Art-Modellen deutet darauf hin, dass noch viele fundierte Daten für den Einsatz in der realen Welt gesammelt werden müssen, was die kritische Notwendigkeit skalierbarer Datenerfassungsansätze unterstreicht. Schließlich zeigen wir, dass Video-VLMs Einzelbild-VLMs signifikant übertreffen, mit einer durchschnittlichen Fehlerratenreduktion von 19 % über alle VQA-Aufgaben hinweg. Daten und Videos sind verfügbar unter https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io