ConceptGraphs: Open-Vocabulary 3D-Szenengraphen für Wahrnehmung und Planung
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
September 28, 2023
papers.authors: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI
papers.abstract
Damit Roboter eine Vielzahl von Aufgaben ausführen können, benötigen sie eine 3D-Darstellung der Welt, die semantisch reichhaltig, aber dennoch kompakt und effizient für aufgabenorientierte Wahrnehmung und Planung ist. Neuere Ansätze haben versucht, Merkmale aus großen Vision-Language-Modellen zu nutzen, um Semantik in 3D-Darstellungen zu kodieren. Diese Ansätze neigen jedoch dazu, Karten mit Merkmalsvektoren pro Punkt zu erzeugen, die in größeren Umgebungen nicht gut skalieren und auch keine semantischen räumlichen Beziehungen zwischen Entitäten in der Umgebung enthalten, die für die nachgelagerte Planung nützlich wären. In dieser Arbeit schlagen wir ConceptGraphs vor, eine offene, graphstrukturierte Darstellung für 3D-Szenen. ConceptGraphs wird durch die Nutzung von 2D-Foundation-Modellen und die Fusion ihrer Ausgabe in 3D durch Multi-View-Assoziation erstellt. Die resultierenden Darstellungen generalisieren auf neue semantische Klassen, ohne dass große 3D-Datensätze gesammelt oder Modelle feinabgestimmt werden müssen. Wir demonstrieren den Nutzen dieser Darstellung durch eine Reihe von nachgelagerten Planungsaufgaben, die durch abstrakte (sprachliche) Anweisungen spezifiziert werden und komplexes Denken über räumliche und semantische Konzepte erfordern. (Projektseite: https://concept-graphs.github.io/ Erklärvideo: https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )