ChatPaper.aiChatPaper

Video-3D LLM: Обучение позиционно-осведомленному видеопредставлению для понимания трехмерных сцен

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

November 30, 2024
Авторы: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI

Аннотация

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) значительно повлияло на различные мультимодальные задачи. Однако эти модели сталкиваются с вызовами в задачах, требующих пространственного понимания в 3D окружениях. Предпринимались усилия по улучшению MLLM, такие как включение признаков облака точек, однако существует значительный разрыв между изученными моделями представлений и врожденной сложностью 3D сцен. Это расхождение в значительной степени обусловлено обучением MLLM на преимущественно 2D данных, что ограничивает их эффективность в понимании 3D пространств. Для решения этой проблемы в данной статье мы предлагаем новую обобщенную модель, т.е. Video-3D LLM, для понимания 3D сцен. Рассматривая 3D сцены как динамические видео и включая 3D кодирование позиции в эти представления, наш Video-3D LLM более точно выравнивает видеопредставления с пространственными контекстами реального мира. Кроме того, мы реализовали технику максимального покрытия выборки для оптимизации баланса между вычислительными затратами и эффективностью работы. Обширные эксперименты показывают, что наша модель достигает передовых результатов на нескольких бенчмарках понимания 3D сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models' learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. Additionally, we have implemented a maximum coverage sampling technique to optimize the balance between computational costs and performance efficiency. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

Summary

AI-Generated Summary

PDF172December 5, 2024