RoboVQA: Multimodale Langetermijnredenering voor Robotica
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Auteurs: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Samenvatting
We presenteren een schaalbare, bottom-up en intrinsiek diverse dataverzamelingsmethode die kan worden gebruikt voor hoogwaardig redeneren met lange en middellange tijdsbestekken en die een 2,2x hogere doorvoer heeft in vergelijking met traditionele, smalle top-down stap-voor-stap verzameling. We verzamelen realistische data door gebruikersverzoeken uit te voeren in drie volledige kantoorgebouwen en door gebruik te maken van meerdere robot- en menselijke belichamingen. Met deze data tonen we aan dat modellen die op alle belichamingen zijn getraind, beter presteren dan modellen die alleen op robotdata zijn getraind, zelfs wanneer ze uitsluitend worden geëvalueerd op robotepisodes. We ontdekken dat het voor een vast verzamelingsbudget voordelig is om gebruik te maken van goedkopere menselijke verzameling naast robotverzameling. We publiceren een grote en zeer diverse dataset (29.520 unieke instructies) genaamd RoboVQA, die 829.502 (video, tekst) paren bevat voor visueel vraag-antwoord gericht op robotica. We demonstreren ook hoe het evalueren van echte roboteffecten met een interventiemechanisme het mogelijk maakt om taken tot voltooiing uit te voeren, waardoor het inzetbaar is met menselijk toezicht, zelfs als het niet perfect is, terwijl het ook een enkele prestatiemetric biedt. We demonstreren een enkel videogestuurd model genaamd RoboVQA-VideoCoCa, getraind op onze dataset, dat in staat is om een verscheidenheid aan gegronde hoogwaardige redeneertaken uit te voeren in brede realistische omgevingen met een cognitieve interventiesnelheid die 46% lager is dan de zero-shot state-of-the-art visuele taalmodel (VLM) baseline en dat in staat is om echte robots door langetermijntaken te begeleiden. De prestatiekloof met zero-shot state-of-the-art modellen geeft aan dat er nog veel gegronde data moet worden verzameld voor inzet in de echte wereld, wat de kritische noodzaak van schaalbare dataverzamelingsbenaderingen benadrukt. Tot slot tonen we aan dat video-VLM's significant beter presteren dan single-image VLM's met een gemiddelde foutreductie van 19% over alle VQA-taken. Data en video's zijn beschikbaar op https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io