ChatPaper.aiChatPaper

3DGraphLLM: Сочетание семантических графов и больших языковых моделей для понимания трехмерных сцен

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

December 24, 2024
Авторы: Tatiana Zemskova, Dmitry Yudin
cs.AI

Аннотация

Граф сцены в 3D представляет собой компактную модель сцены, хранящую информацию об объектах и семантических отношениях между ними, что делает его использование многообещающим для робототехнических задач. При взаимодействии с пользователем воплощенный интеллектуальный агент должен быть способен отвечать на различные запросы о сцене, сформулированные естественным языком. Большие языковые модели (LLM) являются выгодными решениями для взаимодействия пользователя с роботом благодаря своим способностям понимания естественного языка и рассуждения. Недавние методы создания обучаемых представлений 3D сцен продемонстрировали потенциал улучшения качества ответов LLM путем адаптации к 3D миру. Однако существующие методы не используют информацию о семантических отношениях между объектами явно, ограничиваясь информацией о их координатах. В данной работе мы предлагаем метод 3DGraphLLM для построения обучаемого представления графа 3D сцены. Обучаемое представление используется в качестве входных данных для LLM для выполнения задач 3D зрения и языка. В наших экспериментах на популярных наборах данных ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D и Scan2cap мы демонстрируем преимущество этого подхода перед базовыми методами, которые не используют информацию о семантических отношениях между объектами. Код общедоступен по адресу https://github.com/CognitiveAISystems/3DGraphLLM.
English
A 3D scene graph represents a compact scene model, storing information about the objects and the semantic relationships between them, making its use promising for robotic tasks. When interacting with a user, an embodied intelligent agent should be capable of responding to various queries about the scene formulated in natural language. Large Language Models (LLMs) are beneficial solutions for user-robot interaction due to their natural language understanding and reasoning abilities. Recent methods for creating learnable representations of 3D scenes have demonstrated the potential to improve the quality of LLMs responses by adapting to the 3D world. However, the existing methods do not explicitly utilize information about the semantic relationships between objects, limiting themselves to information about their coordinates. In this work, we propose a method 3DGraphLLM for constructing a learnable representation of a 3D scene graph. The learnable representation is used as input for LLMs to perform 3D vision-language tasks. In our experiments on popular ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap datasets, we demonstrate the advantage of this approach over baseline methods that do not use information about the semantic relationships between objects. The code is publicly available at https://github.com/CognitiveAISystems/3DGraphLLM.

Summary

AI-Generated Summary

PDF372December 25, 2024