ConceptGraphs : Graphes de scènes 3D à vocabulaire ouvert pour la perception et la planification
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
September 28, 2023
papers.authors: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI
papers.abstract
Pour que les robots puissent accomplir une grande variété de tâches, ils ont besoin d'une représentation 3D du monde qui soit sémantiquement riche, tout en étant compacte et efficace pour la perception et la planification axées sur les tâches. Les approches récentes ont tenté d'exploiter les caractéristiques des grands modèles vision-langage pour encoder la sémantique dans les représentations 3D. Cependant, ces approches ont tendance à produire des cartes avec des vecteurs de caractéristiques par point, qui ne s'adaptent pas bien aux environnements plus vastes, et ne contiennent pas de relations spatiales sémantiques entre les entités de l'environnement, qui sont utiles pour la planification en aval. Dans ce travail, nous proposons ConceptGraphs, une représentation graphique structurée en vocabulaire ouvert pour les scènes 3D. ConceptGraphs est construit en exploitant des modèles de base 2D et en fusionnant leur sortie en 3D par association multi-vues. Les représentations résultantes généralisent à de nouvelles classes sémantiques, sans qu'il soit nécessaire de collecter de grands ensembles de données 3D ou de fine-tuner les modèles. Nous démontrons l'utilité de cette représentation à travers plusieurs tâches de planification en aval, spécifiées par des invites abstraites (langagières) et nécessitant un raisonnement complexe sur des concepts spatiaux et sémantiques. (Page du projet : https://concept-graphs.github.io/ Vidéo explicative : https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )