SpatialVLM: Dotando a los modelos de visión y lenguaje con capacidades de razonamiento espacial
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Autores: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Resumen
Comprender y razonar sobre relaciones espaciales es una capacidad fundamental para la Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) y la robótica. Aunque los Modelos de Lenguaje Visual (VLM, por sus siglas en inglés) han demostrado un rendimiento notable en ciertos benchmarks de VQA, aún carecen de capacidades en el razonamiento espacial 3D, como reconocer relaciones cuantitativas de objetos físicos, como distancias o diferencias de tamaño. Nuestra hipótesis es que la limitada capacidad de razonamiento espacial de los VLMs se debe a la falta de conocimiento espacial 3D en los datos de entrenamiento, y nuestro objetivo es resolver este problema entrenando VLMs con datos de razonamiento espacial a escala de Internet. Para ello, presentamos un sistema que facilita este enfoque. Primero, desarrollamos un marco de generación automática de datos de VQA espacial 3D que escala hasta 2 mil millones de ejemplos de VQA en 10 millones de imágenes del mundo real. Luego, investigamos varios factores en la receta de entrenamiento, incluyendo la calidad de los datos, la pipeline de entrenamiento y la arquitectura del VLM. Nuestro trabajo presenta el primer conjunto de datos de razonamiento espacial 3D a escala de Internet en espacio métrico. Al entrenar un VLM con estos datos, mejoramos significativamente su capacidad en VQA espacial tanto cualitativa como cuantitativa. Finalmente, demostramos que este VLM desbloquea nuevas aplicaciones descendentes en razonamiento espacial de cadena de pensamiento y robótica, gracias a su capacidad de estimación cuantitativa. Sitio web del proyecto: https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/