ConceptGraphs: Grafos de Cena 3D de Vocabulário Aberto para Percepção e Planejamento
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
September 28, 2023
Autores: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI
Resumo
Para que os robôs realizem uma ampla variedade de tarefas, eles precisam de uma representação 3D do mundo que seja semanticamente rica, mas compacta e eficiente para percepção e planejamento orientados por tarefas. Abordagens recentes tentaram aproveitar recursos de grandes modelos de visão e linguagem para codificar semântica em representações 3D. No entanto, essas abordagens tendem a produzir mapas com vetores de características por ponto, que não escalam bem em ambientes maiores, nem contêm relações espaciais semânticas entre entidades no ambiente, que são úteis para o planejamento subsequente. Neste trabalho, propomos o ConceptGraphs, uma representação estruturada em grafos de vocabulário aberto para cenas 3D. O ConceptGraphs é construído aproveitando modelos fundamentais 2D e fundindo sua saída em 3D por meio de associação multi-visão. As representações resultantes generalizam para novas classes semânticas, sem a necessidade de coletar grandes conjuntos de dados 3D ou ajustar modelos. Demonstramos a utilidade dessa representação por meio de várias tarefas de planejamento subsequente que são especificadas por prompts abstratos (linguagem) e exigem raciocínio complexo sobre conceitos espaciais e semânticos. (Página do projeto: https://concept-graphs.github.io/ Vídeo explicativo: https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )