Video-3D LLM: Aprendizado de Representação de Vídeo Consciente de Posição para Compreensão de Cena 3D
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding
November 30, 2024
Autores: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI
Resumo
O rápido avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impactou significativamente várias tarefas multimodais. No entanto, esses modelos enfrentam desafios em tarefas que exigem compreensão espacial em ambientes 3D. Esforços para aprimorar MLLMs, como a incorporação de características de nuvem de pontos, foram feitos, mas uma lacuna considerável permanece entre as representações aprendidas pelos modelos e a complexidade inerente das cenas 3D. Essa discrepância decorre principalmente do treinamento de MLLMs em dados predominantemente 2D, o que restringe sua eficácia na compreensão de espaços 3D. Para abordar esse problema, neste artigo, propomos um modelo generalista inovador, ou seja, Video-3D LLM, para compreensão de cenas 3D. Ao tratar cenas 3D como vídeos dinâmicos e incorporar codificação de posição 3D nessas representações, nosso Video-3D LLM alinha as representações de vídeo com contextos espaciais do mundo real de forma mais precisa. Além disso, implementamos uma técnica de amostragem de cobertura máxima para otimizar o equilíbrio entre custos computacionais e eficiência de desempenho. Experimentos extensivos demonstram que nosso modelo alcança desempenho de ponta em vários benchmarks de compreensão de cenas 3D, incluindo ScanRefer, Multi3DRefer, Scan2Cap, ScanQA e SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has
significantly impacted various multimodal tasks. However, these models face
challenges in tasks that require spatial understanding within 3D environments.
Efforts to enhance MLLMs, such as incorporating point cloud features, have been
made, yet a considerable gap remains between the models' learned
representations and the inherent complexity of 3D scenes. This discrepancy
largely stems from the training of MLLMs on predominantly 2D data, which
restricts their effectiveness in comprehending 3D spaces. To address this
issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM,
for 3D scene understanding. By treating 3D scenes as dynamic videos and
incorporating 3D position encoding into these representations, our Video-3D LLM
aligns video representations with real-world spatial contexts more accurately.
Additionally, we have implemented a maximum coverage sampling technique to
optimize the balance between computational costs and performance efficiency.
Extensive experiments demonstrate that our model achieves state-of-the-art
performance on several 3D scene understanding benchmarks, including ScanRefer,
Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.Summary
AI-Generated Summary