RoboVQA: Мультимодальное долгосрочное рассуждение для робототехники
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Авторы: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Аннотация
Мы представляем масштабируемую, восходящую и внутренне разнообразную схему сбора данных, которая может быть использована для высокоуровневого рассуждения с длинными и средними горизонтами и которая обеспечивает в 2,2 раза более высокую пропускную способность по сравнению с традиционным узким нисходящим пошаговым сбором. Мы собираем реалистичные данные, выполняя любые запросы пользователей в рамках трех офисных зданий и используя несколько роботизированных и человеческих воплощений. С помощью этих данных мы показываем, что модели, обученные на всех воплощениях, работают лучше, чем модели, обученные только на данных роботов, даже при оценке исключительно на эпизодах с роботами. Мы обнаруживаем, что при фиксированном бюджете на сбор данных выгодно использовать более дешевый сбор данных с участием людей наряду с роботизированным сбором. Мы публикуем большой и высокоразнообразный (29 520 уникальных инструкций) набор данных под названием RoboVQA, содержащий 829 502 пары (видео, текст) для визуального ответа на вопросы, ориентированного на робототехнику. Мы также демонстрируем, как оценка реальных экспериментов с роботами с использованием механизма вмешательства позволяет выполнять задачи до завершения, делая их пригодными для развертывания под наблюдением человека, даже если они не идеальны, а также предоставляет единый показатель производительности. Мы демонстрируем единую модель, названную RoboVQA-VideoCoCa, обученную на нашем наборе данных, которая способна выполнять различные заземленные высокоуровневые задачи рассуждения в широких реалистичных условиях с частотой когнитивных вмешательств на 46% ниже, чем у базовой модели визуального языка (VLM) с нулевым обучением, и способна направлять реальных роботов через задачи с длинным горизонтом. Разрыв в производительности с моделями с нулевым обучением, находящимися на переднем крае, указывает на то, что для развертывания в реальном мире остается собрать много заземленных данных, подчеркивая критическую необходимость масштабируемых подходов к сбору данных. Наконец, мы показываем, что видео-VLM значительно превосходят VLM, работающие с одиночными изображениями, со средним снижением частоты ошибок на 19% по всем задачам VQA. Данные и видео доступны по адресу https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io