LLaVA-3D: Een eenvoudige maar effectieve methode om LMM's te versterken met 3D-bewustzijn
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
September 26, 2024
Auteurs: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI
Samenvatting
Recente ontwikkelingen in Grote Multimodale Modellen (LMM's) hebben hun bekwaamheid in 2D visuele begripstaken aanzienlijk verbeterd, waardoor ze effectief afbeeldingen en video's kunnen verwerken en begrijpen. Echter, de ontwikkeling van LMM's met 3D-bewustzijn voor het begrijpen van 3D-scènes is belemmerd door het gebrek aan grootschalige 3D vision-language datasets en krachtige 3D encoders. In dit artikel introduceren we een eenvoudig maar effectief framework genaamd LLaVA-3D. Door gebruik te maken van de sterke 2D begripsprioriteiten van LLaVA, past onze LLaVA-3D LLaVA efficiënt aan voor het begrijpen van 3D-scènes zonder de 2D begripsmogelijkheden in gevaar te brengen. Om dit te bereiken, maken we gebruik van een eenvoudige maar effectieve representatie, 3D Patch, die 2D CLIP patch kenmerken verbindt met hun overeenkomstige posities in 3D-ruimte. Door de 3D Patches te integreren in 2D LMM's en gezamenlijke 2D en 3D vision-language instructieafstemming toe te passen, vestigen we een verenigde architectuur voor zowel 2D beeldbegrip als 3D scènebegrip. Experimentele resultaten tonen aan dat LLaVA-3D 3,5x sneller convergeert dan bestaande 3D LMM's wanneer getraind op 3D vision-language datasets. Bovendien behaalt LLaVA-3D niet alleen state-of-the-art prestaties op verschillende 3D taken, maar behoudt het ook vergelijkbare 2D beeldbegrip- en vision-language gespreksmogelijkheden met LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced
their proficiency in 2D visual understanding tasks, enabling them to
effectively process and understand images and videos. However, the development
of LMMs with 3D-awareness for 3D scene understanding has been hindered by the
lack of large-scale 3D vision-language datasets and powerful 3D encoders. In
this paper, we introduce a simple yet effective framework called LLaVA-3D.
Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D
efficiently adapts LLaVA for 3D scene understanding without compromising 2D
understanding capabilities. To achieve this, we employ a simple yet effective
representation, 3D Patch, which connects 2D CLIP patch features with their
corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs
and employing joint 2D and 3D vision-language instruction tuning, we establish
a unified architecture for both 2D image understanding and 3D scene
understanding. Experimental results show that LLaVA-3D converges 3.5x faster
than existing 3D LMMs when trained on 3D vision-language datasets. Moreover,
LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks
but also maintains comparable 2D image understanding and vision-language
conversation capabilities with LLaVA.Summary
AI-Generated Summary