SpatialVLM: Vision-Language Modellen Uitrusten met Ruimtelijk Redeneervermogen
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Auteurs: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Samenvatting
Het begrijpen en redeneren over ruimtelijke relaties is een fundamentele
vaardigheid voor Visuele Vraag Antwoord (VQA) en robotica. Hoewel Vision
Language Models (VLM) opmerkelijke prestaties hebben laten zien in bepaalde VQA-
benchmarks, ontbreekt het hen nog steeds aan mogelijkheden voor 3D-ruimtelijk
redeneren, zoals het herkennen van kwantitatieve relaties van fysieke objecten
zoals afstanden of grootteverschillen. We veronderstellen dat de beperkte
ruimtelijke redeneervaardigheid van VLMs te wijten is aan het ontbreken van 3D-
ruimtelijke kennis in de trainingsdata en streven ernaar dit probleem op te
lossen door VLMs te trainen met internet-schaal ruimtelijke redeneerdata. Hiertoe
presenteren we een systeem om deze aanpak te faciliteren. We ontwikkelen eerst
een automatisch 3D-ruimtelijk VQA-datageneratieframework dat kan opschalen tot
2 miljard VQA-voorbeelden op 10 miljoen real-world afbeeldingen. Vervolgens
onderzoeken we verschillende factoren in het trainingsrecept, waaronder
data-kwaliteit, trainingspipeline en VLM-architectuur. Ons werk omvat de eerste
internet-schaal 3D-ruimtelijke redeneerdataset in metrische ruimte. Door een VLM
te trainen op dergelijke data, verbeteren we aanzienlijk zijn vermogen voor zowel
kwalitatieve als kwantitatieve ruimtelijke VQA. Tot slot tonen we aan dat deze VLM
nieuwe downstream-toepassingen mogelijk maakt in keten-van-gedachte ruimtelijk
redeneren en robotica vanwege zijn kwantitatieve schattingsvermogen. Projectwebsite:
https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/