3DGraphLLM : Combinaison de graphes sémantiques et de grands modèles de langage pour la compréhension de scènes 3D
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
Auteurs: Tatiana Zemskova, Dmitry Yudin
cs.AI
Résumé
Un graphe de scène 3D représente un modèle de scène compact, stockant des informations sur les objets et les relations sémantiques entre eux, ce qui le rend prometteur pour les tâches robotiques. Lors de l'interaction avec un utilisateur, un agent intelligent incarné doit être capable de répondre à diverses requêtes sur la scène formulées en langage naturel. Les grands modèles de langage (LLMs) sont des solutions bénéfiques pour l'interaction homme-robot en raison de leurs capacités de compréhension et de raisonnement en langage naturel. Les méthodes récentes de création de représentations apprenables de scènes 3D ont démontré le potentiel d'améliorer la qualité des réponses des LLMs en s'adaptant au monde 3D. Cependant, les méthodes existantes n'utilisent pas explicitement les informations sur les relations sémantiques entre les objets, se limitant aux informations sur leurs coordonnées. Dans ce travail, nous proposons une méthode 3DGraphLLM pour construire une représentation apprenable d'un graphe de scène 3D. La représentation apprenable est utilisée en entrée pour les LLMs afin d'effectuer des tâches de vision-langage 3D. Dans nos expériences sur les ensembles de données populaires ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D et Scan2cap, nous démontrons l'avantage de cette approche par rapport aux méthodes de base qui n'utilisent pas les informations sur les relations sémantiques entre les objets. Le code est publiquement disponible sur https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.Summary
AI-Generated Summary