3DGraphLLM: Het combineren van semantische grafieken en grote taalmodellen voor het begrijpen van 3D-scènes
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
Auteurs: Tatiana Zemskova, Dmitry Yudin
cs.AI
Samenvatting
Een 3D-scene-graaf vertegenwoordigt een compact scènemodel, waarin informatie over de objecten en de semantische relaties tussen hen wordt opgeslagen, waardoor het veelbelovend is voor robottaken. Bij interactie met een gebruiker moet een belichaamde intelligente agent in staat zijn om te reageren op verschillende vragen over de scène die geformuleerd zijn in natuurlijke taal. Grote Taalmodellen (LLM's) zijn gunstige oplossingen voor gebruiker-robotinteractie vanwege hun begrip van natuurlijke taal en redeneervermogen. Recente methoden voor het creëren van leerzame representaties van 3D-scènes hebben het potentieel aangetoond om de kwaliteit van LLM's-responsen te verbeteren door zich aan te passen aan de 3D-wereld. Echter, de bestaande methoden maken geen expliciet gebruik van informatie over de semantische relaties tussen objecten, en beperken zich tot informatie over hun coördinaten. In dit werk stellen we een methode 3DGraphLLM voor om een leerzame representatie van een 3D-scene-graaf te construeren. De leerzame representatie wordt gebruikt als invoer voor LLM's om 3D visie-taal taken uit te voeren. In onze experimenten met populaire ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D en Scan2cap datasets, tonen we het voordeel van deze benadering ten opzichte van basismethoden die geen gebruik maken van informatie over de semantische relaties tussen objecten. De code is openbaar beschikbaar op https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.