ULIP-2: Hacia un Preentrenamiento Multimodal Escalable para la Comprensión 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding
May 14, 2023
Autores: Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
cs.AI
Resumen
Los recientes avances en los métodos de preentrenamiento multimodal han demostrado una eficacia prometedora en el aprendizaje de representaciones 3D al alinear características a través de la modalidad 3D, su modalidad 2D correspondiente y la modalidad de lenguaje asociada. Sin embargo, los métodos utilizados por los marcos de preentrenamiento multimodal existentes para recopilar datos multimodales para aplicaciones 3D carecen de escalabilidad y exhaustividad, lo que podría limitar el potencial completo del aprendizaje multimodal. El principal cuello de botella radica en la escalabilidad y exhaustividad de la modalidad de lenguaje. Para abordar este problema, presentamos ULIP-2, un marco de preentrenamiento multimodal que aprovecha modelos de lenguaje multimodal de última generación (LLMs) preentrenados con un amplio conocimiento para generar automáticamente contrapartes lingüísticas holísticas para objetos 3D. Realizamos experimentos en dos conjuntos de datos a gran escala, Objaverse y ShapeNet55, y publicamos nuestros conjuntos de datos de tripletas de tres modalidades (Nube de Puntos 3D - Imagen - Lenguaje), denominados "ULIP-Objaverse Triplets" y "ULIP-ShapeNet Triplets". ULIP-2 requiere únicamente datos 3D y elimina la necesidad de cualquier esfuerzo de anotación manual, demostrando su escalabilidad; además, ULIP-2 logra mejoras notables en la clasificación zero-shot en ModelNet40 (74% de precisión Top1). Además, ULIP-2 establece un nuevo récord en el benchmark del mundo real ScanObjectNN (91.5% de precisión general) mientras utiliza solo 1.4 millones de parámetros (~10 veces menos que el estado del arte actual), lo que representa un avance en el aprendizaje escalable de representaciones 3D multimodales sin anotaciones humanas. El código y los conjuntos de datos están disponibles en https://github.com/salesforce/ULIP.
English
Recent advancements in multimodal pre-training methods have shown promising
efficacy in 3D representation learning by aligning features across 3D modality,
their 2D counterpart modality, and corresponding language modality. However,
the methods used by existing multimodal pre-training frameworks to gather
multimodal data for 3D applications lack scalability and comprehensiveness,
potentially constraining the full potential of multimodal learning. The main
bottleneck lies in the language modality's scalability and comprehensiveness.
To address this bottleneck, we introduce ULIP-2, a multimodal pre-training
framework that leverages state-of-the-art multimodal large language models
(LLMs) pre-trained on extensive knowledge to automatically generate holistic
language counterparts for 3D objects. We conduct experiments on two large-scale
datasets, Objaverse and ShapeNet55, and release our generated three-modality
triplet datasets (3D Point Cloud - Image - Language), named "ULIP-Objaverse
Triplets" and "ULIP-ShapeNet Triplets". ULIP-2 requires only 3D data itself and
eliminates the need for any manual annotation effort, demonstrating its
scalability; and ULIP-2 achieves remarkable improvements on downstream
zero-shot classification on ModelNet40 (74% Top1 Accuracy). Moreover, ULIP-2
sets a new record on the real-world ScanObjectNN benchmark (91.5% Overall
Accuracy) while utilizing only 1.4 million parameters(~10x fewer than current
SOTA), signifying a breakthrough in scalable multimodal 3D representation
learning without human annotations. The code and datasets are available at
https://github.com/salesforce/ULIP.