RoboVQA: Razonamiento multimodal de horizonte largo para robótica
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Autores: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Resumen
Presentamos un esquema escalable, de abajo hacia arriba e intrínsecamente diverso para la recopilación de datos que puede utilizarse para razonamiento de alto nivel con horizontes largos y medios, y que tiene un rendimiento 2.2 veces mayor en comparación con los métodos tradicionales de recopilación estrecha y paso a paso de arriba hacia abajo. Recopilamos datos realistas al ejecutar cualquier solicitud de los usuarios en la totalidad de 3 edificios de oficinas y utilizando múltiples encarnaciones de robots y humanos. Con estos datos, demostramos que los modelos entrenados con todas las encarnaciones superan a los entrenados únicamente con datos de robots, incluso cuando se evalúan exclusivamente en episodios de robots. Descubrimos que, para un presupuesto fijo de recopilación, es beneficioso aprovechar la recopilación más económica con humanos junto con la recopilación con robots. Publicamos un conjunto de datos grande y altamente diverso (29,520 instrucciones únicas) llamado RoboVQA, que contiene 829,502 pares (video, texto) para tareas de respuesta visual a preguntas enfocadas en robótica. También demostramos cómo la evaluación de experimentos con robots reales mediante un mecanismo de intervención permite completar tareas, haciéndolo implementable con supervisión humana incluso si es imperfecto, al mismo tiempo que proporciona una única métrica de rendimiento. Demostramos un único modelo condicionado por video llamado RoboVQA-VideoCoCa, entrenado con nuestro conjunto de datos, que es capaz de realizar una variedad de tareas de razonamiento de alto nivel en entornos realistas amplios, con una tasa de intervención cognitiva un 46% menor que el modelo de lenguaje visual (VLM) de última generación en modo zero-shot, y que es capaz de guiar robots reales en tareas de horizonte largo. La brecha de rendimiento con los modelos de última generación en modo zero-shot indica que aún queda mucha información fundamentada por recopilar para su implementación en el mundo real, lo que enfatiza la necesidad crítica de enfoques escalables para la recopilación de datos. Finalmente, demostramos que los VLM basados en video superan significativamente a los VLM basados en una sola imagen, con una reducción promedio en la tasa de error del 19% en todas las tareas de VQA. Los datos y videos están disponibles en https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io