SpatialVLM: Наделение моделей "визуальный язык" способностями к пространственному мышлению
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Авторы: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Аннотация
Понимание и рассуждение о пространственных отношениях является фундаментальной способностью для задач визуального ответа на вопросы (VQA) и робототехники. Хотя языковые модели с визуальным восприятием (VLM) продемонстрировали впечатляющие результаты в некоторых тестах VQA, они всё ещё недостаточно эффективны в задачах трёхмерного пространственного рассуждения, таких как распознавание количественных отношений физических объектов, например расстояний или различий в размерах. Мы предполагаем, что ограниченная способность VLMs к пространственному рассуждению связана с отсутствием трёхмерных пространственных знаний в обучающих данных, и стремимся решить эту проблему, обучая VLMs на данных интернет-масштаба для пространственного рассуждения. Для этого мы представляем систему, которая облегчает такой подход. Сначала мы разрабатываем автоматизированную структуру для генерации 3D пространственных данных VQA, которая масштабируется до 2 миллиардов примеров VQA на основе 10 миллионов реальных изображений. Затем мы исследуем различные факторы в процессе обучения, включая качество данных, конвейер обучения и архитектуру VLM. Наша работа представляет первый набор данных интернет-масштаба для трёхмерного пространственного рассуждения в метрическом пространстве. Обучая VLM на таких данных, мы значительно улучшаем её способности как в качественных, так и в количественных задачах пространственного VQA. Наконец, мы демонстрируем, что эта VLM открывает новые возможности для применения в цепочках рассуждений о пространстве и робототехнике благодаря своей способности к количественной оценке. Сайт проекта: https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/