ChatPaper.aiChatPaper

ConceptGraphs: Grafos Escénicos 3D de Vocabulario Abierto para Percepción y Planificación

ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning

September 28, 2023
Autores: Qiao Gu, Alihusein Kuwajerwala, Sacha Morin, Krishna Murthy Jatavallabhula, Bipasha Sen, Aditya Agarwal, Corban Rivera, William Paul, Kirsty Ellis, Rama Chellappa, Chuang Gan, Celso Miguel de Melo, Joshua B. Tenenbaum, Antonio Torralba, Florian Shkurti, Liam Paull
cs.AI

Resumen

Para que los robots realicen una amplia variedad de tareas, requieren una representación 3D del mundo que sea semánticamente rica, pero a la vez compacta y eficiente para la percepción y planificación orientadas a tareas. Enfoques recientes han intentado aprovechar características de modelos grandes de visión y lenguaje para codificar semántica en representaciones 3D. Sin embargo, estos enfoques tienden a producir mapas con vectores de características por punto, los cuales no escalan bien en entornos más grandes, ni contienen relaciones espaciales semánticas entre entidades en el entorno, las cuales son útiles para la planificación posterior. En este trabajo, proponemos ConceptGraphs, una representación estructurada en grafos de vocabulario abierto para escenas 3D. ConceptGraphs se construye aprovechando modelos fundamentales 2D y fusionando su salida a 3D mediante asociación multi-vista. Las representaciones resultantes generalizan a clases semánticas novedosas, sin la necesidad de recolectar grandes conjuntos de datos 3D o ajustar modelos. Demostramos la utilidad de esta representación a través de varias tareas de planificación posteriores que se especifican mediante indicaciones abstractas (en lenguaje) y requieren razonamiento complejo sobre conceptos espaciales y semánticos. (Página del proyecto: https://concept-graphs.github.io/ Video explicativo: https://youtu.be/mRhNkQwRYnc)
English
For robots to perform a wide variety of tasks, they require a 3D representation of the world that is semantically rich, yet compact and efficient for task-driven perception and planning. Recent approaches have attempted to leverage features from large vision-language models to encode semantics in 3D representations. However, these approaches tend to produce maps with per-point feature vectors, which do not scale well in larger environments, nor do they contain semantic spatial relationships between entities in the environment, which are useful for downstream planning. In this work, we propose ConceptGraphs, an open-vocabulary graph-structured representation for 3D scenes. ConceptGraphs is built by leveraging 2D foundation models and fusing their output to 3D by multi-view association. The resulting representations generalize to novel semantic classes, without the need to collect large 3D datasets or finetune models. We demonstrate the utility of this representation through a number of downstream planning tasks that are specified through abstract (language) prompts and require complex reasoning over spatial and semantic concepts. (Project page: https://concept-graphs.github.io/ Explainer video: https://youtu.be/mRhNkQwRYnc )
PDF100December 15, 2024