ChatPaper.aiChatPaper

SpatialVLM : Doter les modèles vision-langage de capacités de raisonnement spatial

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

January 22, 2024
Auteurs: Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
cs.AI

Résumé

Comprendre et raisonner sur les relations spatiales est une capacité fondamentale pour le domaine de la Réponse à des Questions Visuelles (VQA) et de la robotique. Bien que les Modèles de Vision et Langage (VLM) aient démontré des performances remarquables sur certains benchmarks de VQA, ils manquent encore de capacités en raisonnement spatial 3D, comme la reconnaissance des relations quantitatives entre objets physiques, telles que les distances ou les différences de taille. Nous émettons l'hypothèse que la capacité limitée des VLMs en raisonnement spatial est due à l'absence de connaissances spatiales 3D dans les données d'entraînement, et nous visons à résoudre ce problème en entraînant les VLMs avec des données de raisonnement spatial à l'échelle d'Internet. À cette fin, nous présentons un système pour faciliter cette approche. Nous développons d'abord un cadre automatique de génération de données de VQA spatiale 3D, capable de produire jusqu'à 2 milliards d'exemples de VQA sur 10 millions d'images du monde réel. Nous étudions ensuite divers facteurs dans la recette d'entraînement, incluant la qualité des données, le pipeline d'entraînement et l'architecture des VLMs. Notre travail présente le premier ensemble de données de raisonnement spatial 3D à l'échelle d'Internet dans un espace métrique. En entraînant un VLM sur de telles données, nous améliorons significativement ses capacités en VQA spatiale, tant qualitative que quantitative. Enfin, nous démontrons que ce VLM ouvre de nouvelles applications en aval dans le raisonnement spatial en chaîne de pensée et en robotique, grâce à sa capacité d'estimation quantitative. Site du projet : https://spatial-vlm.github.io/
English
Understanding and reasoning about spatial relationships is a fundamental capability for Visual Question Answering (VQA) and robotics. While Vision Language Models (VLM) have demonstrated remarkable performance in certain VQA benchmarks, they still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size differences. We hypothesize that VLMs' limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. To this end, we present a system to facilitate this approach. We first develop an automatic 3D spatial VQA data generation framework that scales up to 2 billion VQA examples on 10 million real-world images. We then investigate various factors in the training recipe, including data quality, training pipeline, and VLM architecture. Our work features the first internet-scale 3D spatial reasoning dataset in metric space. By training a VLM on such data, we significantly enhance its ability on both qualitative and quantitative spatial VQA. Finally, we demonstrate that this VLM unlocks novel downstream applications in chain-of-thought spatial reasoning and robotics due to its quantitative estimation capability. Project website: https://spatial-vlm.github.io/
PDF282December 15, 2024