SpatialVLM: Dotando Modelos de Visão e Linguagem com Capacidades de Raciocínio Espacial
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Autores: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Resumo
Compreender e raciocinar sobre relações espaciais é uma capacidade fundamental para a Resposta Visual a Perguntas (VQA) e para a robótica. Embora os Modelos de Linguagem Visual (VLM) tenham demonstrado desempenho notável em certos benchmarks de VQA, eles ainda carecem de capacidades de raciocínio espacial 3D, como reconhecer relações quantitativas de objetos físicos, como distâncias ou diferenças de tamanho. Nossa hipótese é que a capacidade limitada de raciocínio espacial dos VLMs se deve à falta de conhecimento espacial 3D nos dados de treinamento, e nosso objetivo é resolver esse problema treinando VLMs com dados de raciocínio espacial em escala da internet. Para isso, apresentamos um sistema que facilita essa abordagem. Primeiro, desenvolvemos um framework automático de geração de dados de VQA espacial 3D que escala até 2 bilhões de exemplos de VQA em 10 milhões de imagens do mundo real. Em seguida, investigamos vários fatores na receita de treinamento, incluindo qualidade dos dados, pipeline de treinamento e arquitetura do VLM. Nosso trabalho apresenta o primeiro conjunto de dados de raciocínio espacial 3D em escala da internet no espaço métrico. Ao treinar um VLM com esses dados, aprimoramos significativamente sua capacidade em VQA espacial tanto qualitativa quanto quantitativa. Por fim, demonstramos que esse VLM desbloqueia novas aplicações downstream em raciocínio espacial em cadeia de pensamento e robótica devido à sua capacidade de estimativa quantitativa. Site do projeto: https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/