RoboVQA: Ragionamento Multimodale a Lungo Termine per la Robotica
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics
November 1, 2023
Autori: Pierre Sermanet, Tianli Ding, Jeffrey Zhao, Fei Xia, Debidatta Dwibedi, Keerthana Gopalakrishnan, Christine Chan, Gabriel Dulac-Arnold, Sharath Maddineni, Nikhil J Joshi, Pete Florence, Wei Han, Robert Baruch, Yao Lu, Suvir Mirchandani, Peng Xu, Pannag Sanketi, Karol Hausman, Izhak Shafran, Brian Ichter, Yuan Cao
cs.AI
Abstract
Presentiamo uno schema di raccolta dati scalabile, bottom-up e intrinsecamente diversificato che può essere utilizzato per ragionamenti di alto livello con orizzonti lunghi e medi e che ha una produttività 2,2 volte superiore rispetto ai tradizionali approcci di raccolta top-down passo-passo. Raccogliamo dati realistici eseguendo qualsiasi richiesta dell'utente all'interno di tre edifici per uffici e utilizzando molteplici incarnazioni di robot e umani. Con questi dati, dimostriamo che i modelli addestrati su tutte le incarnazioni performano meglio di quelli addestrati solo sui dati dei robot, anche quando valutati esclusivamente su episodi robotici. Scopriamo che, per un budget di raccolta fisso, è vantaggioso sfruttare la raccolta umana più economica insieme a quella robotica. Rilasciamo un ampio e altamente diversificato dataset (29.520 istruzioni uniche) denominato RoboVQA, contenente 829.502 coppie (video, testo) per il visual question answering focalizzato sulla robotica. Dimostriamo inoltre come la valutazione di esperimenti con robot reali attraverso un meccanismo di intervento consenta di portare a termine i compiti, rendendolo utilizzabile con supervisione umana anche se imperfetto, fornendo al contempo una singola metrica di performance. Presentiamo un modello condizionato da video, denominato RoboVQA-VideoCoCa, addestrato sul nostro dataset, in grado di eseguire una varietà di compiti di ragionamento di alto livello in contesti realistici ampi, con un tasso di intervento cognitivo inferiore del 46% rispetto al modello di riferimento zero-shot state-of-the-art per i modelli linguistici visivi (VLM), e capace di guidare robot reali attraverso compiti a lungo termine. Il divario di performance rispetto ai modelli zero-shot state-of-the-art indica che rimane ancora molto da raccogliere in termini di dati contestualizzati per il dispiegamento nel mondo reale, sottolineando la necessità critica di approcci scalabili alla raccolta dati. Infine, dimostriamo che i VLM basati su video superano significativamente i VLM basati su singole immagini, con una riduzione media del tasso di errore del 19% in tutti i compiti di VQA. Dati e video disponibili su https://robovqa.github.io.
English
We present a scalable, bottom-up and intrinsically diverse data collection
scheme that can be used for high-level reasoning with long and medium horizons
and that has 2.2x higher throughput compared to traditional narrow top-down
step-by-step collection. We collect realistic data by performing any user
requests within the entirety of 3 office buildings and using multiple robot and
human embodiments. With this data, we show that models trained on all
embodiments perform better than ones trained on the robot data only, even when
evaluated solely on robot episodes. We find that for a fixed collection budget
it is beneficial to take advantage of cheaper human collection along with robot
collection. We release a large and highly diverse (29,520 unique instructions)
dataset dubbed RoboVQA containing 829,502 (video, text) pairs for
robotics-focused visual question answering. We also demonstrate how evaluating
real robot experiments with an intervention mechanism enables performing tasks
to completion, making it deployable with human oversight even if imperfect
while also providing a single performance metric. We demonstrate a single
video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is
capable of performing a variety of grounded high-level reasoning tasks in broad
realistic settings with a cognitive intervention rate 46% lower than the
zero-shot state of the art visual language model (VLM) baseline and is able to
guide real robots through long-horizon tasks. The performance gap with
zero-shot state-of-the-art models indicates that a lot of grounded data remains
to be collected for real-world deployment, emphasizing the critical need for
scalable data collection approaches. Finally, we show that video VLMs
significantly outperform single-image VLMs with an average error rate reduction
of 19% across all VQA tasks. Data and videos available at
https://robovqa.github.io