ULIP-2: Rumo a um Pré-treinamento Multimodal Escalável para Compreensão 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding
May 14, 2023
Autores: Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
cs.AI
Resumo
Os recentes avanços nos métodos de pré-treinamento multimodal têm demonstrado eficácia promissora no aprendizado de representações 3D ao alinhar características entre a modalidade 3D, sua contraparte 2D e a modalidade de linguagem correspondente. No entanto, os métodos utilizados pelas estruturas de pré-treinamento multimodal existentes para coletar dados multimodais para aplicações 3D carecem de escalabilidade e abrangência, potencialmente limitando o pleno potencial do aprendizado multimodal. O principal gargalo reside na escalabilidade e abrangência da modalidade de linguagem. Para abordar esse gargalo, introduzimos o ULIP-2, uma estrutura de pré-treinamento multimodal que aproveita modelos de linguagem grandes (LLMs) multimodais de última geração, pré-treinados com conhecimento extenso, para gerar automaticamente contrapartes de linguagem holísticas para objetos 3D. Realizamos experimentos em dois conjuntos de dados em larga escala, Objaverse e ShapeNet55, e disponibilizamos nossos conjuntos de dados de triplas de três modalidades (Nuvem de Pontos 3D - Imagem - Linguagem), denominados "ULIP-Objaverse Triplets" e "ULIP-ShapeNet Triplets". O ULIP-2 requer apenas os próprios dados 3D e elimina a necessidade de qualquer esforço de anotação manual, demonstrando sua escalabilidade; e o ULIP-2 alcança melhorias notáveis na classificação zero-shot downstream no ModelNet40 (74% de Acurácia Top1). Além disso, o ULIP-2 estabelece um novo recorde no benchmark do mundo real ScanObjectNN (91,5% de Acurácia Geral) enquanto utiliza apenas 1,4 milhão de parâmetros (~10x menos que o SOTA atual), significando um avanço no aprendizado de representações 3D multimodal escalável sem anotações humanas. O código e os conjuntos de dados estão disponíveis em https://github.com/salesforce/ULIP.
English
Recent advancements in multimodal pre-training methods have shown promising
efficacy in 3D representation learning by aligning features across 3D modality,
their 2D counterpart modality, and corresponding language modality. However,
the methods used by existing multimodal pre-training frameworks to gather
multimodal data for 3D applications lack scalability and comprehensiveness,
potentially constraining the full potential of multimodal learning. The main
bottleneck lies in the language modality's scalability and comprehensiveness.
To address this bottleneck, we introduce ULIP-2, a multimodal pre-training
framework that leverages state-of-the-art multimodal large language models
(LLMs) pre-trained on extensive knowledge to automatically generate holistic
language counterparts for 3D objects. We conduct experiments on two large-scale
datasets, Objaverse and ShapeNet55, and release our generated three-modality
triplet datasets (3D Point Cloud - Image - Language), named "ULIP-Objaverse
Triplets" and "ULIP-ShapeNet Triplets". ULIP-2 requires only 3D data itself and
eliminates the need for any manual annotation effort, demonstrating its
scalability; and ULIP-2 achieves remarkable improvements on downstream
zero-shot classification on ModelNet40 (74% Top1 Accuracy). Moreover, ULIP-2
sets a new record on the real-world ScanObjectNN benchmark (91.5% Overall
Accuracy) while utilizing only 1.4 million parameters(~10x fewer than current
SOTA), signifying a breakthrough in scalable multimodal 3D representation
learning without human annotations. The code and datasets are available at
https://github.com/salesforce/ULIP.