LSceneLLM: Verbeteren van het begrip van grote 3D-scènes door middel van adaptieve visuele voorkeuren
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
December 2, 2024
Auteurs: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI
Samenvatting
Onderzoek naar 3D Vision-Language Modellen (3D-VLM's) krijgt steeds meer aandacht, wat cruciaal is voor de ontwikkeling van embodied AI binnen 3D-scènes, zoals visuele navigatie en embodied vraagbeantwoording. Vanwege de hoge dichtheid van visuele kenmerken, vooral in grote 3D-scènes, is het uitdagend om nauwkeurig taakrelevante visuele informatie te lokaliseren. Bestaande werken proberen alle objecten te segmenteren en beschouwen hun kenmerken als scène-representaties. Echter, deze taakagnostische objectkenmerken bevatten veel overbodige informatie en missen details voor het taakrelevante gebied. Om deze problemen aan te pakken, stellen we LSceneLLM voor, een adaptief raamwerk dat automatisch taakrelevante gebieden identificeert door gebruik te maken van LLM's visuele voorkeur voor verschillende taken, gevolgd door een plug-and-play scène-vergrotende module om gedetailleerde details in gefocuste gebieden vast te leggen. Specifiek onderzoekt een dichte tokenselector de aandachtskaart van LLM om visuele voorkeuren voor de instructie-invoer te identificeren. Vervolgens vergroot het fijne details van het focusgebied. Een adaptieve zelfaandachtsmodule wordt ingezet om de grofkorrelige en geselecteerde fijne visuele informatie te combineren. Om de grote scènebegripsvaardigheid van 3D-VLM's uitgebreid te evalueren, introduceren we verder een cross-room begripsbenchmark, XR-Scene, die een reeks grote scènebegripstaken bevat, waaronder XR-QA, XR-EmbodiedPlanning en XR-SceneCaption. Experimenten tonen aan dat onze methode bestaande methoden overtreft op zowel grote scènebegripstaken als bestaande scènebegripbenchmarks. Het toevoegen van onze scène-vergrotende module aan bestaande 3D-VLM's levert ook aanzienlijke verbetering op.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing
attention, which is crucial for developing embodied AI within 3D scenes, such
as visual navigation and embodied question answering. Due to the high density
of visual features, especially in large 3D scenes, accurately locating
task-relevant visual information is challenging. Existing works attempt to
segment all objects and consider their features as scene representations.
However, these task-agnostic object features include much redundant information
and missing details for the task-relevant area. To tackle these problems, we
propose LSceneLLM, an adaptive framework that automatically identifies
task-relevant areas by leveraging LLM's visual preference for different tasks,
followed by a plug-and-play scene magnifier module to capture fine-grained
details in focused areas. Specifically, a dense token selector examines the
attention map of LLM to identify visual preferences for the instruction input.
It then magnifies fine-grained details of the focusing area. An adaptive
self-attention module is leveraged to fuse the coarse-grained and selected
fine-grained visual information. To comprehensively evaluate the large scene
understanding ability of 3D-VLMs, we further introduce a cross-room
understanding benchmark, XR-Scene, which contains a series of large scene
understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption.
Experiments show that our method surpasses existing methods on both large scene
understanding and existing scene understanding benchmarks. Plunging our scene
magnifier module into the existing 3D-VLMs also brings significant improvement.