LSceneLLM: Verbesserung des Verständnisses großer 3D-Szenen durch adaptive visuelle Präferenzen
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
December 2, 2024
Autoren: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI
Zusammenfassung
Forschung zu 3D Vision-Language-Modellen (3D-VLMs) gewinnt zunehmend an Aufmerksamkeit, was für die Entwicklung von verkörpertem KI innerhalb von 3D-Szenen, wie visuelle Navigation und verkörperte Fragebeantwortung, entscheidend ist. Aufgrund der hohen Dichte visueller Merkmale, insbesondere in großen 3D-Szenen, ist es herausfordernd, relevante visuelle Informationen präzise zu lokalisieren. Bestehende Arbeiten versuchen, alle Objekte zu segmentieren und deren Merkmale als Szenedarstellungen zu betrachten. Allerdings enthalten diese aufgabenagnostischen Objektmerkmale viele redundante Informationen und fehlende Details für den relevanten Bereich. Um diese Probleme zu bewältigen, schlagen wir LSceneLLM vor, ein adaptives Framework, das automatisch relevante Bereiche identifiziert, indem es LLMs visuelle Präferenz für verschiedene Aufgaben nutzt, gefolgt von einem Plug-and-Play-Szenenvergrößerungsmodul, um feingliedrige Details in fokussierten Bereichen einzufangen. Speziell untersucht ein dichter Token-Selektor die Aufmerksamkeitskarte von LLM, um visuelle Präferenzen für die Anweisungseingabe zu identifizieren. Anschließend vergrößert er feingliedrige Details des fokussierten Bereichs. Ein adaptives Selbst-Aufmerksamkeitsmodul wird genutzt, um die grob- und ausgewählten feingliedrigen visuellen Informationen zu verschmelzen. Um die Fähigkeit zur umfassenden Bewertung großer Szenenverständnisse von 3D-VLMs zu evaluieren, führen wir weiterhin einen Verständnis-Benchmark für über Raumgrenzen hinweg, XR-Scene, ein, der eine Reihe von Aufgaben zum Verständnis großer Szenen enthält, einschließlich XR-QA, XR-EmbodiedPlanning und XR-SceneCaption. Experimente zeigen, dass unsere Methode bestehende Methoden sowohl im Verständnis großer Szenen als auch in bestehenden Szenenverständnis-Benchmarks übertrifft. Die Integration unseres Szenenvergrößerungsmoduls in bestehende 3D-VLMs bringt ebenfalls signifikante Verbesserungen.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing
attention, which is crucial for developing embodied AI within 3D scenes, such
as visual navigation and embodied question answering. Due to the high density
of visual features, especially in large 3D scenes, accurately locating
task-relevant visual information is challenging. Existing works attempt to
segment all objects and consider their features as scene representations.
However, these task-agnostic object features include much redundant information
and missing details for the task-relevant area. To tackle these problems, we
propose LSceneLLM, an adaptive framework that automatically identifies
task-relevant areas by leveraging LLM's visual preference for different tasks,
followed by a plug-and-play scene magnifier module to capture fine-grained
details in focused areas. Specifically, a dense token selector examines the
attention map of LLM to identify visual preferences for the instruction input.
It then magnifies fine-grained details of the focusing area. An adaptive
self-attention module is leveraged to fuse the coarse-grained and selected
fine-grained visual information. To comprehensively evaluate the large scene
understanding ability of 3D-VLMs, we further introduce a cross-room
understanding benchmark, XR-Scene, which contains a series of large scene
understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption.
Experiments show that our method surpasses existing methods on both large scene
understanding and existing scene understanding benchmarks. Plunging our scene
magnifier module into the existing 3D-VLMs also brings significant improvement.Summary
AI-Generated Summary