ChatPaper.aiChatPaper

RoboVQA : Raisonnement multimodal à long terme pour la robotique

RoboVQA: Multimodal Long-Horizon Reasoning for Robotics

November 1, 2023
Auteurs: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI

Résumé

Nous présentons un schéma de collecte de données évolutif, ascendant et intrinsèquement diversifié, qui peut être utilisé pour un raisonnement de haut niveau avec des horizons temporels longs et moyens, et qui offre un débit 2,2 fois supérieur par rapport aux méthodes traditionnelles de collecte descendante et séquentielle. Nous collectons des données réalistes en exécutant toutes les requêtes des utilisateurs dans l'ensemble de trois bâtiments de bureaux, en utilisant plusieurs incarnations de robots et d'humains. Avec ces données, nous montrons que les modèles entraînés sur toutes les incarnations surpassent ceux entraînés uniquement sur les données robotiques, même lorsqu'ils sont évalués uniquement sur des épisodes impliquant des robots. Nous constatons que, pour un budget de collecte fixe, il est avantageux de tirer parti de la collecte humaine, moins coûteuse, en complément de la collecte robotique. Nous publions un vaste ensemble de données hautement diversifié (29 520 instructions uniques) nommé RoboVQA, contenant 829 502 paires (vidéo, texte) pour des tâches de question-réponse visuelle centrées sur la robotique. Nous démontrons également comment l'évaluation d'expériences sur des robots réels avec un mécanisme d'intervention permet d'accomplir des tâches jusqu'à leur terme, rendant le système déployable avec une supervision humaine même s'il est imparfait, tout en fournissant une métrique de performance unique. Nous présentons un modèle unique conditionné par la vidéo, nommé RoboVQA-VideoCoCa, entraîné sur notre ensemble de données, capable d'exécuter une variété de tâches de raisonnement de haut niveau ancrées dans des environnements réalistes étendus, avec un taux d'intervention cognitive 46 % inférieur à celui du modèle de langage visuel (VLM) de référence en zero-shot, et capable de guider des robots réels à travers des tâches à long terme. L'écart de performance avec les modèles de pointe en zero-shot indique qu'il reste beaucoup de données ancrées à collecter pour un déploiement dans le monde réel, soulignant le besoin crucial d'approches de collecte de données évolutives. Enfin, nous montrons que les VLM basés sur la vidéo surpassent significativement les VLM basés sur une seule image, avec une réduction moyenne du taux d'erreur de 19 % sur toutes les tâches de question-réponse visuelle. Les données et les vidéos sont disponibles à l'adresse https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection scheme that can be used for high-level reasoning with long and medium horizons and that has 2.2x higher throughput compared to traditional narrow top-down step-by-step collection. We collect realistic data by performing any user requests within the entirety of 3 office buildings and using multiple robot and human embodiments. With this data, we show that models trained on all embodiments perform better than ones trained on the robot data only, even when evaluated solely on robot episodes. We find that for a fixed collection budget it is beneficial to take advantage of cheaper human collection along with robot collection. We release a large and highly diverse (29,520 unique instructions) dataset dubbed RoboVQA containing 829,502 (video, text) pairs for robotics-focused visual question answering. We also demonstrate how evaluating real robot experiments with an intervention mechanism enables performing tasks to completion, making it deployable with human oversight even if imperfect while also providing a single performance metric. We demonstrate a single video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is capable of performing a variety of grounded high-level reasoning tasks in broad realistic settings with a cognitive intervention rate 46% lower than the zero-shot state of the art visual language model (VLM) baseline and is able to guide real robots through long-horizon tasks. The performance gap with zero-shot state-of-the-art models indicates that a lot of grounded data remains to be collected for real-world deployment, emphasizing the critical need for scalable data collection approaches. Finally, we show that video VLMs significantly outperform single-image VLMs with an average error rate reduction of 19% across all VQA tasks. Data and videos available at https://robovqa.github.io
PDF92December 15, 2024