LLaVA-3D: Um Caminho Simples, porém Eficaz, para Capacitar Modelos de Linguagem Multimodal com Consciência 3D
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness
September 26, 2024
Autores: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI
Resumo
Os avanços recentes em Modelos Multimodais Grandes (LMMs) aprimoraram significativamente sua proficiência em tarefas de compreensão visual 2D, permitindo que processem e compreendam efetivamente imagens e vídeos. No entanto, o desenvolvimento de LMMs com consciência 3D para compreensão de cenas 3D tem sido dificultado pela falta de conjuntos de dados de visão-linguagem em grande escala e codificadores 3D potentes. Neste artigo, apresentamos uma estrutura simples, porém eficaz, chamada LLaVA-3D. Aproveitando os fortes conhecimentos prévios de compreensão 2D do LLaVA, nosso LLaVA-3D adapta eficientemente o LLaVA para compreensão de cenas 3D sem comprometer as capacidades de compreensão 2D. Para alcançar isso, empregamos uma representação simples, porém eficaz, o Patch 3D, que conecta as características de patches CLIP 2D com suas posições correspondentes no espaço 3D. Ao integrar os Patches 3D nos LMMs 2D e empregar ajuste conjunto de instruções de visão-linguagem 2D e 3D, estabelecemos uma arquitetura unificada para compreensão de imagens 2D e compreensão de cenas 3D. Resultados experimentais mostram que o LLaVA-3D converge 3,5 vezes mais rápido do que os LMMs 3D existentes quando treinados em conjuntos de dados de visão-linguagem 3D. Além disso, o LLaVA-3D não apenas alcança desempenho de ponta em várias tarefas 3D, mas também mantém capacidades comparáveis de compreensão de imagens 2D e conversação de visão-linguagem com o LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced
their proficiency in 2D visual understanding tasks, enabling them to
effectively process and understand images and videos. However, the development
of LMMs with 3D-awareness for 3D scene understanding has been hindered by the
lack of large-scale 3D vision-language datasets and powerful 3D encoders. In
this paper, we introduce a simple yet effective framework called LLaVA-3D.
Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D
efficiently adapts LLaVA for 3D scene understanding without compromising 2D
understanding capabilities. To achieve this, we employ a simple yet effective
representation, 3D Patch, which connects 2D CLIP patch features with their
corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs
and employing joint 2D and 3D vision-language instruction tuning, we establish
a unified architecture for both 2D image understanding and 3D scene
understanding. Experimental results show that LLaVA-3D converges 3.5x faster
than existing 3D LMMs when trained on 3D vision-language datasets. Moreover,
LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks
but also maintains comparable 2D image understanding and vision-language
conversation capabilities with LLaVA.Summary
AI-Generated Summary