3DGraphLLM: Combinando Grafos Semánticos y Modelos de Lenguaje Grandes para la Comprensión de Escenas 3D

Resumen

Un grafo de escena en 3D representa un modelo de escena compacto, almacenando información sobre los objetos y las relaciones semánticas entre ellos, lo que hace que su uso sea prometedor para tareas robóticas. Al interactuar con un usuario, un agente inteligente encarnado debe ser capaz de responder a varias consultas sobre la escena formuladas en lenguaje natural. Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) son soluciones beneficiosas para la interacción usuario-robot debido a sus habilidades de comprensión y razonamiento en lenguaje natural. Métodos recientes para crear representaciones aprendibles de escenas en 3D han demostrado el potencial de mejorar la calidad de las respuestas de los LLMs al adaptarse al mundo en 3D. Sin embargo, los métodos existentes no utilizan explícitamente información sobre las relaciones semánticas entre objetos, limitándose a la información sobre sus coordenadas. En este trabajo, proponemos un método 3DGraphLLM para construir una representación aprendible de un grafo de escena en 3D. La representación aprendible se utiliza como entrada para que los LLMs realicen tareas de visión-lenguaje en 3D. En nuestros experimentos en los populares conjuntos de datos ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D y Scan2cap, demostramos la ventaja de este enfoque sobre los métodos base que no utilizan información sobre las relaciones semánticas entre objetos. El código está disponible públicamente en https://github.com/CognitiveAISystems/3DGraphLLM.

English

A 3D scene graph represents a compact scene model, storing information about the objects and the semantic relationships between them, making its use promising for robotic tasks. When interacting with a user, an embodied intelligent agent should be capable of responding to various queries about the scene formulated in natural language. Large Language Models (LLMs) are beneficial solutions for user-robot interaction due to their natural language understanding and reasoning abilities. Recent methods for creating learnable representations of 3D scenes have demonstrated the potential to improve the quality of LLMs responses by adapting to the 3D world. However, the existing methods do not explicitly utilize information about the semantic relationships between objects, limiting themselves to information about their coordinates. In this work, we propose a method 3DGraphLLM for constructing a learnable representation of a 3D scene graph. The learnable representation is used as input for LLMs to perform 3D vision-language tasks. In our experiments on popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap datasets, we demonstrate the advantage of this approach over baseline methods that do not use information about the semantic relationships between objects. The code is publicly available at https://github.com/CognitiveAISystems/3DGraphLLM.

3DGraphLLM: Combinando Grafos Semánticos y Modelos de Lenguaje Grandes para la Comprensión de Escenas 3D

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

Resumen

Support