LSceneLLM: Melhorando a Compreensão de Cenas 3D Amplas Usando Preferências Visuais Adaptativas
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
December 2, 2024
Autores: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI
Resumo
A pesquisa sobre Modelos de Visão-Linguagem 3D (3D-VLMs) está ganhando cada vez mais atenção, o que é crucial para o desenvolvimento de IA incorporada em cenários 3D, como navegação visual e resposta a perguntas incorporadas. Devido à alta densidade de características visuais, especialmente em grandes cenários 3D, localizar com precisão informações visuais relevantes para a tarefa é desafiador. Trabalhos existentes tentam segmentar todos os objetos e considerar suas características como representações da cena. No entanto, essas características de objetos agnósticas à tarefa incluem muitas informações redundantes e detalhes ausentes para a área relevante da tarefa. Para lidar com esses problemas, propomos LSceneLLM, um framework adaptativo que identifica automaticamente áreas relevantes para a tarefa, aproveitando a preferência visual do LLM para diferentes tarefas, seguido por um módulo ampliador de cena plug-and-play para capturar detalhes refinados em áreas focadas. Especificamente, um seletor de token denso examina o mapa de atenção do LLM para identificar preferências visuais para a entrada de instrução. Em seguida, amplia detalhes refinados da área de foco. Um módulo de autoatenção adaptativo é utilizado para fundir as informações visuais grosseiras e selecionadas refinadas. Para avaliar abrangentemente a capacidade de compreensão de cenários grandes dos 3D-VLMs, introduzimos ainda um benchmark de compreensão entre salas, XR-Scene, que contém uma série de tarefas de compreensão de cenários grandes, incluindo XR-QA, XR-PlanejamentoIncorporado e XR-DescriçãoCena. Experimentos mostram que nosso método supera os métodos existentes tanto na compreensão de cenários grandes quanto nos benchmarks de compreensão de cenários existentes. Ao integrar nosso módulo ampliador de cena nos 3D-VLMs existentes, também observamos melhorias significativas.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing
attention, which is crucial for developing embodied AI within 3D scenes, such
as visual navigation and embodied question answering. Due to the high density
of visual features, especially in large 3D scenes, accurately locating
task-relevant visual information is challenging. Existing works attempt to
segment all objects and consider their features as scene representations.
However, these task-agnostic object features include much redundant information
and missing details for the task-relevant area. To tackle these problems, we
propose LSceneLLM, an adaptive framework that automatically identifies
task-relevant areas by leveraging LLM's visual preference for different tasks,
followed by a plug-and-play scene magnifier module to capture fine-grained
details in focused areas. Specifically, a dense token selector examines the
attention map of LLM to identify visual preferences for the instruction input.
It then magnifies fine-grained details of the focusing area. An adaptive
self-attention module is leveraged to fuse the coarse-grained and selected
fine-grained visual information. To comprehensively evaluate the large scene
understanding ability of 3D-VLMs, we further introduce a cross-room
understanding benchmark, XR-Scene, which contains a series of large scene
understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption.
Experiments show that our method surpasses existing methods on both large scene
understanding and existing scene understanding benchmarks. Plunging our scene
magnifier module into the existing 3D-VLMs also brings significant improvement.Summary
AI-Generated Summary