ChatPaper.aiChatPaper

LSceneLLM: Mejorando la Comprensión de Escenas Tridimensionales Grandes Utilizando Preferencias Visuales Adaptativas

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

December 2, 2024
Autores: Hongyan Zhi, Peihao Chen, Junyan Li, Shuailei Ma, Xinyu Sun, Tianhang Xiang, Yinjie Lei, Mingkui Tan, Chuang Gan
cs.AI

Resumen

La investigación sobre Modelos de Visión-Lenguaje 3D (3D-VLMs) está ganando cada vez más atención, lo cual es crucial para el desarrollo de la IA incorporada en escenas 3D, como la navegación visual y la respuesta a preguntas incorporadas. Debido a la alta densidad de características visuales, especialmente en escenas 3D grandes, localizar con precisión la información visual relevante para la tarea es un desafío. Los trabajos existentes intentan segmentar todos los objetos y considerar sus características como representaciones de la escena. Sin embargo, estas características de objetos agnósticas a la tarea incluyen mucha información redundante y detalles faltantes para el área relevante para la tarea. Para abordar estos problemas, proponemos LSceneLLM, un marco adaptativo que identifica automáticamente áreas relevantes para la tarea aprovechando la preferencia visual de LLM para diferentes tareas, seguido por un módulo amplificador de escena plug-and-play para capturar detalles detallados en áreas enfocadas. Específicamente, un selector de tokens denso examina el mapa de atención de LLM para identificar las preferencias visuales para la entrada de instrucciones. Luego amplifica los detalles detallados del área de enfoque. Se aprovecha un módulo de autoatención adaptativo para fusionar la información visual gruesa y seleccionada detallada. Para evaluar de manera integral la capacidad de comprensión de escenas grandes de los 3D-VLMs, introducimos además un banco de pruebas de comprensión interhabitación, XR-Scene, que contiene una serie de tareas de comprensión de escenas grandes, incluidas XR-QA, XR-PlanificaciónIncorporada y XR-DescripciónDeEscena. Los experimentos muestran que nuestro método supera a los métodos existentes tanto en la comprensión de escenas grandes como en los bancos de pruebas de comprensión de escenas existentes. Introducir nuestro módulo amplificador de escena en los 3D-VLMs existentes también aporta una mejora significativa.
English
Research on 3D Vision-Language Models (3D-VLMs) is gaining increasing attention, which is crucial for developing embodied AI within 3D scenes, such as visual navigation and embodied question answering. Due to the high density of visual features, especially in large 3D scenes, accurately locating task-relevant visual information is challenging. Existing works attempt to segment all objects and consider their features as scene representations. However, these task-agnostic object features include much redundant information and missing details for the task-relevant area. To tackle these problems, we propose LSceneLLM, an adaptive framework that automatically identifies task-relevant areas by leveraging LLM's visual preference for different tasks, followed by a plug-and-play scene magnifier module to capture fine-grained details in focused areas. Specifically, a dense token selector examines the attention map of LLM to identify visual preferences for the instruction input. It then magnifies fine-grained details of the focusing area. An adaptive self-attention module is leveraged to fuse the coarse-grained and selected fine-grained visual information. To comprehensively evaluate the large scene understanding ability of 3D-VLMs, we further introduce a cross-room understanding benchmark, XR-Scene, which contains a series of large scene understanding tasks including XR-QA, XR-EmbodiedPlanning, and XR-SceneCaption. Experiments show that our method surpasses existing methods on both large scene understanding and existing scene understanding benchmarks. Plunging our scene magnifier module into the existing 3D-VLMs also brings significant improvement.

Summary

AI-Generated Summary

PDF132December 4, 2024