ConceptGraphs : Graphes de scènes 3D à vocabulaire ouvert pour la perception et la planification

papers.abstract

Pour que les robots puissent accomplir une grande variété de tâches, ils ont besoin d'une représentation 3D du monde qui soit sémantiquement riche, tout en étant compacte et efficace pour la perception et la planification axées sur les tâches. Les approches récentes ont tenté d'exploiter les caractéristiques des grands modèles vision-langage pour encoder la sémantique dans les représentations 3D. Cependant, ces approches ont tendance à produire des cartes avec des vecteurs de caractéristiques par point, qui ne s'adaptent pas bien aux environnements plus vastes, et ne contiennent pas de relations spatiales sémantiques entre les entités de l'environnement, qui sont utiles pour la planification en aval. Dans ce travail, nous proposons ConceptGraphs, une représentation graphique structurée en vocabulaire ouvert pour les scènes 3D. ConceptGraphs est construit en exploitant des modèles de base 2D et en fusionnant leur sortie en 3D par association multi-vues. Les représentations résultantes généralisent à de nouvelles classes sémantiques, sans qu'il soit nécessaire de collecter de grands ensembles de données 3D ou de fine-tuner les modèles. Nous démontrons l'utilité de cette représentation à travers plusieurs tâches de planification en aval, spécifiées par des invites abstraites (langagières) et nécessitant un raisonnement complexe sur des concepts spatiaux et sémantiques. (Page du projet : https://concept-graphs.github.io/ Vidéo explicative : https://youtu.be/mRhNkQwRYnc)

English

For robots to perform a wide variety of tasks, they require a 3D representation of the world that is semantically rich, yet compact and efficient for task-driven perception and planning. Recent approaches have attempted to leverage features from large vision-language models to encode semantics in 3D representations. However, these approaches tend to produce maps with per-point feature vectors, which do not scale well in larger environments, nor do they contain semantic spatial relationships between entities in the environment, which are useful for downstream planning. In this work, we propose ConceptGraphs, an open-vocabulary graph-structured representation for 3D scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing their output to 3D by multi-view association. The resulting representations generalize to novel semantic classes, without the need to collect large 3D datasets or finetune models. We demonstrate the utility of this representation through a number of downstream planning tasks that are specified through abstract (language) prompts and require complex reasoning over spatial and semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )

ConceptGraphs : Graphes de scènes 3D à vocabulaire ouvert pour la perception et la planification

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

papers.abstract

Support