ULIP-2: Rumo a um Pré-treinamento Multimodal Escalável para Compreensão 3D

Resumo

Os recentes avanços nos métodos de pré-treinamento multimodal têm demonstrado eficácia promissora no aprendizado de representações 3D ao alinhar características entre a modalidade 3D, sua contraparte 2D e a modalidade de linguagem correspondente. No entanto, os métodos utilizados pelas estruturas de pré-treinamento multimodal existentes para coletar dados multimodais para aplicações 3D carecem de escalabilidade e abrangência, potencialmente limitando o pleno potencial do aprendizado multimodal. O principal gargalo reside na escalabilidade e abrangência da modalidade de linguagem. Para abordar esse gargalo, introduzimos o ULIP-2, uma estrutura de pré-treinamento multimodal que aproveita modelos de linguagem grandes (LLMs) multimodais de última geração, pré-treinados com conhecimento extenso, para gerar automaticamente contrapartes de linguagem holísticas para objetos 3D. Realizamos experimentos em dois conjuntos de dados em larga escala, Objaverse e ShapeNet55, e disponibilizamos nossos conjuntos de dados de triplas de três modalidades (Nuvem de Pontos 3D - Imagem - Linguagem), denominados "ULIP-Objaverse Triplets" e "ULIP-ShapeNet Triplets". O ULIP-2 requer apenas os próprios dados 3D e elimina a necessidade de qualquer esforço de anotação manual, demonstrando sua escalabilidade; e o ULIP-2 alcança melhorias notáveis na classificação zero-shot downstream no ModelNet40 (74% de Acurácia Top1). Além disso, o ULIP-2 estabelece um novo recorde no benchmark do mundo real ScanObjectNN (91,5% de Acurácia Geral) enquanto utiliza apenas 1,4 milhão de parâmetros (~10x menos que o SOTA atual), significando um avanço no aprendizado de representações 3D multimodal escalável sem anotações humanas. O código e os conjuntos de dados estão disponíveis em https://github.com/salesforce/ULIP.

English

Recent advancements in multimodal pre-training methods have shown promising efficacy in 3D representation learning by aligning features across 3D modality, their 2D counterpart modality, and corresponding language modality. However, the methods used by existing multimodal pre-training frameworks to gather multimodal data for 3D applications lack scalability and comprehensiveness, potentially constraining the full potential of multimodal learning. The main bottleneck lies in the language modality's scalability and comprehensiveness. To address this bottleneck, we introduce ULIP-2, a multimodal pre-training framework that leverages state-of-the-art multimodal large language models (LLMs) pre-trained on extensive knowledge to automatically generate holistic language counterparts for 3D objects. We conduct experiments on two large-scale datasets, Objaverse and ShapeNet55, and release our generated three-modality triplet datasets (3D Point Cloud - Image - Language), named "ULIP-Objaverse Triplets" and "ULIP-ShapeNet Triplets". ULIP-2 requires only 3D data itself and eliminates the need for any manual annotation effort, demonstrating its scalability; and ULIP-2 achieves remarkable improvements on downstream zero-shot classification on ModelNet40 (74% Top1 Accuracy). Moreover, ULIP-2 sets a new record on the real-world ScanObjectNN benchmark (91.5% Overall Accuracy) while utilizing only 1.4 million parameters(~10x fewer than current SOTA), signifying a breakthrough in scalable multimodal 3D representation learning without human annotations. The code and datasets are available at https://github.com/salesforce/ULIP.

ULIP-2: Rumo a um Pré-treinamento Multimodal Escalável para Compreensão 3D

ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

Resumo

Support