ChatPaper.aiChatPaper

LLaVA-3D: Un camino simple pero efectivo para potenciar los LMMs con conciencia 3D

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

September 26, 2024
Autores: Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
cs.AI

Resumen

Los recientes avances en los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han mejorado considerablemente su eficacia en tareas de comprensión visual 2D, permitiéndoles procesar y entender imágenes y videos de manera efectiva. Sin embargo, el desarrollo de LMMs con conciencia 3D para comprensión de escenas 3D se ha visto obstaculizado por la falta de conjuntos de datos de visión-lenguaje a gran escala en 3D y codificadores 3D potentes. En este documento, presentamos un marco simple pero efectivo llamado LLaVA-3D. Aprovechando los sólidos conocimientos previos de comprensión 2D de LLaVA, nuestro LLaVA-3D adapta eficientemente LLaVA para la comprensión de escenas 3D sin comprometer las capacidades de comprensión 2D. Para lograr esto, empleamos una representación simple pero efectiva, Parche 3D, que conecta las características de parches CLIP 2D con sus posiciones correspondientes en el espacio 3D. Al integrar los Parches 3D en LMMs 2D y utilizar ajuste conjunto de instrucciones de visión-lenguaje 2D y 3D, establecemos una arquitectura unificada para la comprensión de imágenes 2D y la comprensión de escenas 3D. Los resultados experimentales muestran que LLaVA-3D converge 3.5 veces más rápido que los LMMs 3D existentes cuando se entrenan con conjuntos de datos de visión-lenguaje 3D. Además, LLaVA-3D no solo logra un rendimiento de vanguardia en diversas tareas 3D, sino que también mantiene capacidades comparables de comprensión de imágenes 2D y conversación de visión-lenguaje con LLaVA.
English
Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.

Summary

AI-Generated Summary

PDF352November 16, 2024