ConceptGraphs: Open-Vocabulary 3D-scenegrafieken voor perceptie en planning
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
September 28, 2023
Auteurs: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI
Samenvatting
Om robots een breed scala aan taken te laten uitvoeren, hebben ze een 3D-representatie van de wereld nodig die semantisch rijk is, maar tegelijkertijd compact en efficiënt voor taakgestuurde perceptie en planning. Recente benaderingen hebben geprobeerd om kenmerken van grote vision-language modellen te benutten om semantiek in 3D-representaties te coderen. Deze benaderingen produceren echter vaak kaarten met per-punt feature-vectoren, die niet goed schalen in grotere omgevingen en ook geen semantische ruimtelijke relaties tussen entiteiten in de omgeving bevatten, wat nuttig is voor downstream planning. In dit werk stellen we ConceptGraphs voor, een open-vocabulary grafiekgestructureerde representatie voor 3D-scènes. ConceptGraphs wordt gebouwd door gebruik te maken van 2D foundation modellen en hun output naar 3D te fuseren via multi-view associatie. De resulterende representaties generaliseren naar nieuwe semantische klassen, zonder dat grote 3D-datasets hoeven te worden verzameld of modellen hoeven te worden gefinetuned. We demonstreren het nut van deze representatie via een aantal downstream planningtaken die worden gespecificeerd door middel van abstracte (taal) prompts en complex redeneren over ruimtelijke en semantische concepten vereisen. (Projectpagina: https://concept-graphs.github.io/ Uitlegvideo: https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )