SpatialVLM: Ausstattung von Vision-Language-Modellen mit räumlichen Argumentationsfähigkeiten
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
January 22, 2024
Autoren: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI
Zusammenfassung
Das Verständnis und die Schlussfolgerung räumlicher Beziehungen ist eine grundlegende Fähigkeit für Visual Question Answering (VQA) und Robotik. Obwohl Vision-Language-Modelle (VLM) bemerkenswerte Leistungen in bestimmten VQA-Benchmarks gezeigt haben, mangelt es ihnen immer noch an Fähigkeiten im Bereich des 3D-räumlichen Denkens, wie z.B. der Erkennung quantitativer Beziehungen physischer Objekte wie Entfernungen oder Größenunterschiede. Wir stellen die Hypothese auf, dass die begrenzte räumliche Denkfähigkeit von VLMs auf den Mangel an 3D-räumlichem Wissen in den Trainingsdaten zurückzuführen ist, und zielen darauf ab, dieses Problem zu lösen, indem wir VLMs mit internetweiten Daten zum räumlichen Denken trainieren. Zu diesem Zweck präsentieren wir ein System, das diesen Ansatz ermöglicht. Zunächst entwickeln wir ein automatisches Framework zur Generierung von 3D-räumlichen VQA-Daten, das auf 2 Milliarden VQA-Beispiele auf 10 Millionen realen Bildern skaliert. Anschließend untersuchen wir verschiedene Faktoren im Trainingsrezept, einschließlich Datenqualität, Trainingspipeline und VLM-Architektur. Unsere Arbeit präsentiert den ersten internetweiten 3D-räumlichen Denkdatensatz im metrischen Raum. Durch das Training eines VLM mit solchen Daten verbessern wir dessen Fähigkeiten sowohl im qualitativen als auch im quantitativen räumlichen VQA erheblich. Schließlich zeigen wir, dass dieses VLM aufgrund seiner quantitativen Schätzfähigkeit neue Anwendungen im Bereich des kausalen räumlichen Denkens und der Robotik ermöglicht. Projektwebsite: https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental
capability for Visual Question Answering (VQA) and robotics. While Vision
Language Models (VLM) have demonstrated remarkable performance in certain VQA
benchmarks, they still lack capabilities in 3D spatial reasoning, such as
recognizing quantitative relationships of physical objects like distances or
size differences. We hypothesize that VLMs' limited spatial reasoning
capability is due to the lack of 3D spatial knowledge in training data and aim
to solve this problem by training VLMs with Internet-scale spatial reasoning
data. To this end, we present a system to facilitate this approach. We first
develop an automatic 3D spatial VQA data generation framework that scales up to
2 billion VQA examples on 10 million real-world images. We then investigate
various factors in the training recipe, including data quality, training
pipeline, and VLM architecture. Our work features the first internet-scale 3D
spatial reasoning dataset in metric space. By training a VLM on such data, we
significantly enhance its ability on both qualitative and quantitative spatial
VQA. Finally, we demonstrate that this VLM unlocks novel downstream
applications in chain-of-thought spatial reasoning and robotics due to its
quantitative estimation capability. Project website:
https://spatial-vlm.github.io/