ChatPaper.aiChatPaper

LSceneLLM: Улучшение понимания больших трехмерных сцен с использованием адаптивных визуальных предпочтений

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

December 2, 2024
Авторы: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI

Аннотация

Исследования по моделям трехмерного зрения и языка (3D-VLM) привлекают все больше внимания, что критически важно для развития воплощенного искусственного интеллекта в трехмерных сценах, таких как визуальная навигация и ответы на вопросы в контексте сцены. Из-за высокой плотности визуальных признаков, особенно в больших трехмерных сценах, точное определение задачеважной визуальной информации представляет собой сложную задачу. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки в качестве представлений сцены. Однако эти признаки объектов, независимые от задачи, содержат много избыточной информации и упускают детали, важные для задачи. Для решения этих проблем мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически выявляет области, важные для задачи, используя визуальные предпочтения LLM для различных задач, за которой следует модуль увеличения сцены "plug-and-play" для захвата мелких деталей в фокусируемых областях. Конкретно, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для ввода инструкции. Затем увеличивает мелкие детали фокусируемой области. Адаптивный модуль самовнимания используется для слияния крупных и выбранных мелких визуальных информаций. Для всесторонней оценки способности понимания больших сцен 3D-VLM мы дополнительно представляем перекрестный бенчмарк понимания сцены, XR-Scene, который включает ряд задач понимания больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и на существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличения сцены в существующие 3D-VLM также приносит значительное улучшение.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.
PDF132December 4, 2024