ChatPaper.aiChatPaper

LSceneLLM: 適応型ビジュアル設定を用いた大規模3Dシーン理解の向上

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

December 2, 2024
著者: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI

要旨

3Dビジョン言語モデル(3D-VLMs)に関する研究はますます注目されており、視覚ナビゲーションや具現化された質問応答など、3Dシーン内で具現化されたAIの開発に不可欠です。特に大規模な3Dシーンにおいて視覚的特徴が高密度であるため、タスクに関連する視覚情報を正確に特定することは難しいです。既存の研究では、すべてのオブジェクトをセグメンテーションし、それらの特徴をシーン表現として考慮しています。しかし、これらのタスクに依存しないオブジェクトの特徴には多くの冗長な情報が含まれており、タスクに関連する領域の詳細が欠落しています。これらの問題に対処するために、私たちはLSceneLLMを提案します。これは、LLMの視覚的優先順位を活用して自動的にタスクに関連する領域を特定し、その後、焦点を当てた領域の細かい詳細を捉えるためのプラグアンドプレイのシーン拡大モジュールを組み合わせた適応フレームワークです。具体的には、密なトークンセレクターがLLMのアテンションマップを調査して指示入力のための視覚的優先順位を特定し、その後、焦点を当てた領域の細かい詳細を拡大します。適応的セルフアテンションモジュールを活用して、粗い粒度と選択された細かい視覚情報を融合します。3D-VLMsの大規模なシーン理解能力を包括的に評価するために、私たちはさらに、XR-Sceneというクロスルーム理解ベンチマークを導入します。これには、XR-QA、XR-EmbodiedPlanning、XR-SceneCaptionを含む一連の大規模なシーン理解タスクが含まれています。実験の結果、当社の手法は既存の手法を大規模なシーン理解および既存のシーン理解ベンチマークの両方で上回っていることが示されました。既存の3D-VLMsに私たちのシーン拡大モジュールを導入することも、大幅な改善をもたらしています。
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.

Summary

AI-Generated Summary

PDF132December 4, 2024