Video-3D LLM: Het Leren van Positie-Bewuste Video Representatie voor het Begrijpen van 3D Scènes
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding
November 30, 2024
Auteurs: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI
Samenvatting
De snelle vooruitgang van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijke invloed gehad op verschillende multimodale taken. Echter, deze modellen staan voor uitdagingen bij taken die ruimtelijk inzicht vereisen binnen 3D omgevingen. Inspanningen om MLLM's te verbeteren, zoals het opnemen van puntenwolkkenmerken, zijn gedaan, maar er blijft een aanzienlijke kloof bestaan tussen de aangeleerde representaties van de modellen en de inherente complexiteit van 3D scènes. Deze discrepantie komt grotendeels voort uit het trainen van MLLM's op voornamelijk 2D-gegevens, wat hun effectiviteit beperkt in het begrijpen van 3D-ruimtes. Om dit probleem aan te pakken, stellen we in dit artikel een nieuw generalistisch model voor, namelijk Video-3D LLM, voor 3D scènebegrip. Door 3D scènes te behandelen als dynamische video's en 3D-positie-encoding in deze representaties op te nemen, stemt onze Video-3D LLM video-representaties nauwkeuriger af op ruimtelijke contexten in de echte wereld. Bovendien hebben we een techniek voor maximale dekkingsgraadimplementatie toegepast om de balans tussen computationele kosten en prestatie-efficiëntie te optimaliseren. Uitgebreide experimenten tonen aan dat ons model state-of-the-art prestaties behaalt op verschillende 3D scènebegrip-benchmarks, waaronder ScanRefer, Multi3DRefer, Scan2Cap, ScanQA en SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has
significantly impacted various multimodal tasks. However, these models face
challenges in tasks that require spatial understanding within 3D environments.
Efforts to enhance MLLMs, such as incorporating point cloud features, have been
made, yet a considerable gap remains between the models' learned
representations and the inherent complexity of 3D scenes. This discrepancy
largely stems from the training of MLLMs on predominantly 2D data, which
restricts their effectiveness in comprehending 3D spaces. To address this
issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM,
for 3D scene understanding. By treating 3D scenes as dynamic videos and
incorporating 3D position encoding into these representations, our Video-3D LLM
aligns video representations with real-world spatial contexts more accurately.
Additionally, we have implemented a maximum coverage sampling technique to
optimize the balance between computational costs and performance efficiency.
Extensive experiments demonstrate that our model achieves state-of-the-art
performance on several 3D scene understanding benchmarks, including ScanRefer,
Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.Summary
AI-Generated Summary