LSceneLLM : Amélioration de la compréhension des grandes scènes 3D en utilisant des préférences visuelles adaptatives
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
December 2, 2024
Auteurs: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI
Résumé
La recherche sur les modèles de vision-langage en 3D (3D-VLM) suscite de plus en plus d'attention, ce qui est crucial pour le développement de l'IA incarnée dans des scènes en 3D, telles que la navigation visuelle et la réponse à des questions incarnées. En raison de la densité élevée des caractéristiques visuelles, en particulier dans de grandes scènes en 3D, localiser avec précision les informations visuelles pertinentes pour la tâche est difficile. Les travaux existants tentent de segmenter tous les objets et considèrent leurs caractéristiques comme des représentations de scène. Cependant, ces caractéristiques d'objets agnostiques à la tâche incluent beaucoup d'informations redondantes et des détails manquants pour la zone pertinente à la tâche. Pour résoudre ces problèmes, nous proposons LSceneLLM, un cadre adaptatif qui identifie automatiquement les zones pertinentes pour la tâche en exploitant la préférence visuelle de LLM pour différentes tâches, suivi d'un module de grossissement de scène plug-and-play pour capturer des détails fins dans les zones ciblées. Plus précisément, un sélecteur de jeton dense examine la carte d'attention de LLM pour identifier les préférences visuelles pour l'entrée d'instruction. Il agrandit ensuite les détails fins de la zone de mise au point. Un module d'auto-attention adaptatif est utilisé pour fusionner les informations visuelles grossières et sélectionnées fines. Pour évaluer de manière exhaustive la capacité de compréhension de grandes scènes des 3D-VLM, nous introduisons également un banc d'essai de compréhension inter-salles, XR-Scene, qui contient une série de tâches de compréhension de grandes scènes, y compris XR-QA, XR-EmbodiedPlanning et XR-SceneCaption. Les expériences montrent que notre méthode surpasse les méthodes existantes à la fois en termes de compréhension de grandes scènes et de bancs d'essai de compréhension de scènes existants. Intégrer notre module de grossissement de scène dans les 3D-VLM existants apporte également une amélioration significative.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing
attention, which is crucial for developing embodied AI within 3D scenes, such
as visual navigation and embodied question answering. Due to the high density
of visual features, especially in large 3D scenes, accurately locating
task-relevant visual information is challenging. Existing works attempt to
segment all objects and consider their features as scene representations.
However, these task-agnostic object features include much redundant information
and missing details for the task-relevant area. To tackle these problems, we
propose LSceneLLM, an adaptive framework that automatically identifies
task-relevant areas by leveraging LLM's visual preference for different tasks,
followed by a plug-and-play scene magnifier module to capture fine-grained
details in focused areas. Specifically, a dense token selector examines the
attention map of LLM to identify visual preferences for the instruction input.
It then magnifies fine-grained details of the focusing area. An adaptive
self-attention module is leveraged to fuse the coarse-grained and selected
fine-grained visual information. To comprehensively evaluate the large scene
understanding ability of 3D-VLMs, we further introduce a cross-room
understanding benchmark, XR-Scene, which contains a series of large scene
understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption.
Experiments show that our method surpasses existing methods on both large scene
understanding and existing scene understanding benchmarks. Plunging our scene
magnifier module into the existing 3D-VLMs also brings significant improvement.Summary
AI-Generated Summary