Video-3D LLM: Aprendizaje de Representación de Video Consciente de la Posición para la Comprensión de Escenas 3D
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding
November 30, 2024
Autores: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje Multimodal Grande (MLLMs) ha impactado significativamente diversas tareas multimodales. Sin embargo, estos modelos enfrentan desafíos en tareas que requieren comprensión espacial dentro de entornos 3D. Se han realizado esfuerzos para mejorar los MLLMs, como la incorporación de características de nube de puntos, sin embargo, existe una brecha considerable entre las representaciones aprendidas por los modelos y la complejidad inherente de las escenas 3D. Esta discrepancia se debe en gran medida al entrenamiento de los MLLMs en su mayoría con datos 2D, lo que limita su efectividad para comprender espacios 3D. Para abordar este problema, en este documento, proponemos un modelo generalista novedoso, es decir, Video-3D LLM, para la comprensión de escenas 3D. Al tratar las escenas 3D como videos dinámicos e incorporar codificación de posición 3D en estas representaciones, nuestro Video-3D LLM alinea las representaciones de video con contextos espaciales del mundo real de manera más precisa. Además, hemos implementado una técnica de muestreo de cobertura máxima para optimizar el equilibrio entre costos computacionales y eficiencia de rendimiento. Experimentos extensos demuestran que nuestro modelo logra un rendimiento de vanguardia en varios puntos de referencia de comprensión de escenas 3D, incluidos ScanRefer, Multi3DRefer, Scan2Cap, ScanQA y SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has
significantly impacted various multimodal tasks. However, these models face
challenges in tasks that require spatial understanding within 3D environments.
Efforts to enhance MLLMs, such as incorporating point cloud features, have been
made, yet a considerable gap remains between the models' learned
representations and the inherent complexity of 3D scenes. This discrepancy
largely stems from the training of MLLMs on predominantly 2D data, which
restricts their effectiveness in comprehending 3D spaces. To address this
issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM,
for 3D scene understanding. By treating 3D scenes as dynamic videos and
incorporating 3D position encoding into these representations, our Video-3D LLM
aligns video representations with real-world spatial contexts more accurately.
Additionally, we have implemented a maximum coverage sampling technique to
optimize the balance between computational costs and performance efficiency.
Extensive experiments demonstrate that our model achieves state-of-the-art
performance on several 3D scene understanding benchmarks, including ScanRefer,
Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.Summary
AI-Generated Summary