RoboVQA: Raciocínio Multimodal de Longo Horizonte para Robótica
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Autores: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Resumo
Apresentamos um esquema escalável, de baixo para cima e intrinsecamente diverso para coleta de dados que pode ser utilizado para raciocínio de alto nível com horizontes de médio e longo prazo e que possui uma taxa de processamento 2,2 vezes maior em comparação com métodos tradicionais de coleta passo a passo, estreitos e de cima para baixo. Coletamos dados realistas ao executar qualquer solicitação de usuários em três edifícios de escritórios completos, utilizando múltiplas instâncias de robôs e humanos. Com esses dados, demonstramos que modelos treinados com todas as instâncias apresentam desempenho superior aos treinados apenas com dados de robôs, mesmo quando avaliados exclusivamente em episódios envolvendo robôs. Descobrimos que, para um orçamento fixo de coleta, é vantajoso aproveitar a coleta humana, mais barata, juntamente com a coleta robótica. Lançamos um grande e altamente diversificado conjunto de dados (29.520 instruções únicas) chamado RoboVQA, contendo 829.502 pares (vídeo, texto) para tarefas de resposta visual a perguntas (VQA) focadas em robótica. Também demonstramos como a avaliação de experimentos reais com robôs, utilizando um mecanismo de intervenção, permite a execução de tarefas até a conclusão, tornando-o implantável com supervisão humana mesmo que imperfeito, ao mesmo tempo em que fornece uma única métrica de desempenho. Demonstramos um único modelo condicionado a vídeo, chamado RoboVQA-VideoCoCa, treinado em nosso conjunto de dados, capaz de realizar uma variedade de tarefas de raciocínio de alto nível fundamentadas em ambientes realistas amplos, com uma taxa de intervenção cognitiva 46% menor do que o estado da arte em modelos de linguagem visual (VLM) de linha de base zero-shot, e que é capaz de guiar robôs reais em tarefas de longo prazo. A lacuna de desempenho em relação aos modelos zero-shot de ponta indica que ainda há muitos dados fundamentados a serem coletados para implantação no mundo real, enfatizando a necessidade crítica de abordagens escaláveis de coleta de dados. Por fim, mostramos que VLMs baseados em vídeo superam significativamente VLMs baseados em imagens únicas, com uma redução média na taxa de erro de 19% em todas as tarefas de VQA. Dados e vídeos disponíveis em https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io