ChatPaper.aiChatPaper

Video-3D LLM: Erlernen einer positionsbewussten Video-Repräsentation für das Verständnis von 3D-Szenen

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

November 30, 2024
Autoren: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI

Zusammenfassung

Der rasante Fortschritt von Multimodalen Großen Sprachmodellen (MLLMs) hat verschiedene multimodale Aufgaben signifikant beeinflusst. Allerdings stehen diese Modelle vor Herausforderungen bei Aufgaben, die räumliches Verständnis in 3D-Umgebungen erfordern. Bemühungen zur Verbesserung von MLLMs, wie die Integration von Punktwolkenmerkmalen, wurden unternommen, doch besteht nach wie vor eine erhebliche Kluft zwischen den erlernten Repräsentationen der Modelle und der inhärenten Komplexität von 3D-Szenen. Diese Diskrepanz resultiert größtenteils aus dem Training von MLLMs an hauptsächlich 2D-Daten, was ihre Effektivität beim Verstehen von 3D-Räumen einschränkt. Um dieses Problem anzugehen, schlagen wir in diesem Papier ein neuartiges Generalistenmodell vor, d.h. Video-3D LLM, für das Verständnis von 3D-Szenen. Indem wir 3D-Szenen als dynamische Videos behandeln und 3D-Positionsencoding in diese Repräsentationen integrieren, passt unser Video-3D LLM Video-Repräsentationen genauer an reale räumliche Kontexte an. Darüber hinaus haben wir eine Technik zur maximalen Abdeckungsauswahl implementiert, um das Gleichgewicht zwischen Rechenkosten und Leistungseffizienz zu optimieren. Umfangreiche Experimente zeigen, dass unser Modell Spitzenleistungen auf mehreren Benchmarks für das Verständnis von 3D-Szenen erzielt, darunter ScanRefer, Multi3DRefer, Scan2Cap, ScanQA und SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models' learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. Additionally, we have implemented a maximum coverage sampling technique to optimize the balance between computational costs and performance efficiency. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

Summary

AI-Generated Summary

PDF172December 5, 2024