SpatialVLM: Dotare i Modelli Visione-Linguaggio di Capacità di Ragionamento Spaziale
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Autori: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Abstract
Comprendere e ragionare sulle relazioni spaziali è una capacità fondamentale per il Visual Question Answering (VQA) e la robotica. Sebbene i Vision Language Models (VLM) abbiano dimostrato prestazioni notevoli in alcuni benchmark di VQA, mancano ancora di capacità nel ragionamento spaziale 3D, come il riconoscimento di relazioni quantitative tra oggetti fisici, ad esempio distanze o differenze di dimensioni. Ipotesizziamo che la limitata capacità di ragionamento spaziale dei VLM sia dovuta alla mancanza di conoscenza spaziale 3D nei dati di addestramento e miriamo a risolvere questo problema addestrando i VLM con dati di ragionamento spaziale su scala Internet. A tal fine, presentiamo un sistema per facilitare questo approccio. In primo luogo, sviluppiamo un framework automatico per la generazione di dati VQA spaziali 3D che scala fino a 2 miliardi di esempi VQA su 10 milioni di immagini del mondo reale. Successivamente, indaghiamo vari fattori nella ricetta di addestramento, inclusa la qualità dei dati, la pipeline di addestramento e l'architettura del VLM. Il nostro lavoro presenta il primo dataset su scala Internet per il ragionamento spaziale 3D in uno spazio metrico. Addestrando un VLM su tali dati, miglioriamo significativamente la sua capacità sia nel VQA spaziale qualitativo che quantitativo. Infine, dimostriamo che questo VLM sblocca nuove applicazioni downstream nel ragionamento spaziale a catena di pensiero e nella robotica grazie alla sua capacità di stima quantitativa. Sito web del progetto: https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/