ChatPaper.aiChatPaper

LLaVA-3D : Un chemin simple mais efficace pour doter les LMMs de la conscience en 3D

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

September 26, 2024
Auteurs: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI

Résumé

Les récents progrès dans les Modèles Multimodaux de Grande Taille (LMMs) ont grandement amélioré leur efficacité dans les tâches de compréhension visuelle 2D, leur permettant de traiter et comprendre efficacement les images et les vidéos. Cependant, le développement de LMMs avec une conscience 3D pour la compréhension des scènes 3D a été entravé par le manque de grands ensembles de données vision-langage 3D et de puissants encodeurs 3D. Dans cet article, nous introduisons un cadre simple mais efficace appelé LLaVA-3D. En tirant parti des forts a priori de compréhension 2D de LLaVA, notre LLaVA-3D adapte efficacement LLaVA pour la compréhension des scènes 3D sans compromettre les capacités de compréhension 2D. Pour ce faire, nous utilisons une représentation simple mais efficace, le Patch 3D, qui relie les caractéristiques des patchs CLIP 2D avec leurs positions correspondantes dans l'espace 3D. En intégrant les Patches 3D dans les LMMs 2D et en utilisant un accord d'instructions vision-langage 2D et 3D conjoint, nous établissons une architecture unifiée pour la compréhension d'images 2D et de scènes 3D. Les résultats expérimentaux montrent que LLaVA-3D converge 3,5 fois plus rapidement que les LMMs 3D existants lorsqu'ils sont entraînés sur des ensembles de données vision-langage 3D. De plus, LLaVA-3D atteint non seulement des performances de pointe dans diverses tâches 3D, mais maintient également des capacités de compréhension d'images 2D et de conversation vision-langage comparables à celles de LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.

Summary

AI-Generated Summary

PDF352November 16, 2024