ChatPaper.aiChatPaper

Video-3D LLM : Apprentissage de la représentation vidéo sensible à la position pour la compréhension de scènes 3D

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

November 30, 2024
Auteurs: Duo Zheng, Shijia Huang, Liwei Wang
cs.AI

Résumé

Les progrès rapides des Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont eu un impact significatif sur diverses tâches multimodales. Cependant, ces modèles rencontrent des défis dans les tâches nécessitant une compréhension spatiale au sein d'environnements 3D. Des efforts ont été déployés pour améliorer les MLLMs, tels que l'incorporation de caractéristiques de nuages de points, cependant, un écart considérable persiste entre les représentations apprises par les modèles et la complexité inhérente des scènes 3D. Cette disparité découle principalement de l'entraînement des MLLMs sur des données principalement 2D, ce qui limite leur efficacité à comprendre les espaces 3D. Pour résoudre ce problème, dans cet article, nous proposons un modèle généraliste novateur, à savoir le Video-3D LLM, pour la compréhension des scènes 3D. En traitant les scènes 3D comme des vidéos dynamiques et en incorporant un encodage de position 3D dans ces représentations, notre Video-3D LLM aligne les représentations vidéo avec les contextes spatiaux du monde réel de manière plus précise. De plus, nous avons mis en œuvre une technique d'échantillonnage de couverture maximale pour optimiser l'équilibre entre les coûts computationnels et l'efficacité des performances. Des expériences approfondies démontrent que notre modèle atteint des performances de pointe sur plusieurs référentiels de compréhension de scènes 3D, y compris ScanRefer, Multi3DRefer, Scan2Cap, ScanQA et SQA3D.
English
The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models' learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. Additionally, we have implemented a maximum coverage sampling technique to optimize the balance between computational costs and performance efficiency. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

Summary

AI-Generated Summary

PDF172December 5, 2024