3DGraphLLM: Kombination von semantischen Graphen und großen Sprachmodellen für das Verständnis von 3D-Szenen
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
December 24, 2024
Autoren: Tatiana Zemskova, Dmitry Yudin
cs.AI
Zusammenfassung
Ein 3D Szenengraph repräsentiert ein kompaktes Szenenmodell, das Informationen über die Objekte und die semantischen Beziehungen zwischen ihnen speichert, was seine Verwendung für robotische Aufgaben vielversprechend macht. Bei der Interaktion mit einem Benutzer sollte ein verkörperter intelligenter Agent in der Lage sein, auf verschiedene Anfragen über die Szene in natürlicher Sprache zu antworten. Große Sprachmodelle (LLMs) sind vorteilhafte Lösungen für die Benutzer-Roboter-Interaktion aufgrund ihrer Fähigkeiten im Verständnis und Schlussfolgern natürlicher Sprache. Aktuelle Methoden zur Erstellung erlernbarer Repräsentationen von 3D-Szenen haben das Potenzial gezeigt, die Qualität der Antworten von LLMs zu verbessern, indem sie sich an die 3D-Welt anpassen. Allerdings nutzen die bestehenden Methoden nicht explizit Informationen über die semantischen Beziehungen zwischen Objekten, sondern beschränken sich auf Informationen über deren Koordinaten. In dieser Arbeit schlagen wir die Methode 3DGraphLLM zur Konstruktion einer erlernbaren Repräsentation eines 3D-Szenengraphen vor. Die erlernbare Repräsentation wird als Eingabe für LLMs verwendet, um 3D-Vision-Sprach-Aufgaben auszuführen. In unseren Experimenten mit den beliebten Datensätzen ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D und Scan2cap zeigen wir den Vorteil dieses Ansatzes gegenüber Basismethoden, die keine Informationen über die semantischen Beziehungen zwischen Objekten verwenden. Der Code ist öffentlich verfügbar unter https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about
the objects and the semantic relationships between them, making its use
promising for robotic tasks. When interacting with a user, an embodied
intelligent agent should be capable of responding to various queries about the
scene formulated in natural language. Large Language Models (LLMs) are
beneficial solutions for user-robot interaction due to their natural language
understanding and reasoning abilities. Recent methods for creating learnable
representations of 3D scenes have demonstrated the potential to improve the
quality of LLMs responses by adapting to the 3D world. However, the existing
methods do not explicitly utilize information about the semantic relationships
between objects, limiting themselves to information about their coordinates. In
this work, we propose a method 3DGraphLLM for constructing a learnable
representation of a 3D scene graph. The learnable representation is used as
input for LLMs to perform 3D vision-language tasks. In our experiments on
popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap
datasets, we demonstrate the advantage of this approach over baseline methods
that do not use information about the semantic relationships between objects.
The code is publicly available at
https://github.com/CognitiveAISystems/3DGraphLLM.Summary
AI-Generated Summary