ConceptGraphs: Открытые словарные 3D сценарные графы для восприятия и планирования
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning
September 28, 2023
Авторы: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI
Аннотация
Для того чтобы роботы могли выполнять широкий спектр задач, им необходимо трехмерное представление мира, которое является семантически насыщенным, но при этом компактным и эффективным для восприятия и планирования, ориентированного на задачи. Современные подходы пытаются использовать признаки из крупных моделей обработки изображений и текста для кодирования семантики в трехмерных представлениях. Однако эти подходы, как правило, создают карты с векторами признаков для каждой точки, которые плохо масштабируются в больших средах и не содержат семантических пространственных отношений между объектами в окружении, что полезно для последующего планирования. В данной работе мы предлагаем ConceptGraphs — открытую словарную графовую структуру для представления трехмерных сцен. ConceptGraphs строится путем использования двумерных базовых моделей и объединения их выходных данных в трехмерное пространство через многовидовую ассоциацию. Полученные представления обобщаются на новые семантические классы без необходимости сбора больших трехмерных наборов данных или дообучения моделей. Мы демонстрируем полезность этого представления через ряд задач планирования, которые задаются с помощью абстрактных (языковых) подсказок и требуют сложного рассуждения над пространственными и семантическими концепциями. (Страница проекта: https://concept-graphs.github.io/ Объясняющее видео: https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D
representation of the world that is semantically rich, yet compact and
efficient for task-driven perception and planning. Recent approaches have
attempted to leverage features from large vision-language models to encode
semantics in 3D representations. However, these approaches tend to produce maps
with per-point feature vectors, which do not scale well in larger environments,
nor do they contain semantic spatial relationships between entities in the
environment, which are useful for downstream planning. In this work, we propose
ConceptGraphs, an open-vocabulary graph-structured representation for 3D
scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing
their output to 3D by multi-view association. The resulting representations
generalize to novel semantic classes, without the need to collect large 3D
datasets or finetune models. We demonstrate the utility of this representation
through a number of downstream planning tasks that are specified through
abstract (language) prompts and require complex reasoning over spatial and
semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer
video: https://youtu.be/mRhNkQwRYnc )