ChatPaper.aiChatPaper

LLaVA-3D: Un percorso semplice ma efficace per potenziare i LMM con consapevolezza tridimensionale.

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

September 26, 2024
Autori: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI

Abstract

Gli avanzamenti recenti nei Large Multimodal Models (LMMs) hanno notevolmente migliorato la loro competenza nei compiti di comprensione visiva 2D, consentendo loro di elaborare ed interpretare efficacemente immagini e video. Tuttavia, lo sviluppo di LMMs con consapevolezza 3D per la comprensione delle scene 3D è stato ostacolato dalla mancanza di dataset visione-linguaggio su larga scala in 3D e potenti codificatori 3D. In questo articolo, presentiamo un framework semplice ma efficace chiamato LLaVA-3D. Sfruttando i forti priors di comprensione 2D di LLaVA, il nostro LLaVA-3D adatta efficientemente LLaVA per la comprensione delle scene 3D senza compromettere le capacità di comprensione 2D. Per raggiungere questo obiettivo, utilizziamo una rappresentazione semplice ma efficace, il Patch 3D, che collega le caratteristiche del patch CLIP 2D con le loro posizioni corrispondenti nello spazio 3D. Integrando i Patch 3D nei LMMs 2D e utilizzando l'ottimizzazione congiunta dell'istruzione visione-linguaggio 2D e 3D, stabiliamo un'architettura unificata sia per la comprensione delle immagini 2D che per la comprensione delle scene 3D. I risultati sperimentali mostrano che LLaVA-3D converge 3,5 volte più velocemente rispetto ai LMMs 3D esistenti quando addestrato su dataset visione-linguaggio 3D. Inoltre, LLaVA-3D non solo raggiunge prestazioni all'avanguardia in vari compiti 3D, ma mantiene anche capacità di comprensione delle immagini 2D e conversazioni visione-linguaggio comparabili con LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.

Summary

AI-Generated Summary

PDF352November 16, 2024