Point-Bind & Point-LLM: Alinhando Nuvens de Pontos com Multimodalidade para Compreensão, Geração e Seguimento de Instruções em 3D
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
September 1, 2023
Autores: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI
Resumo
Apresentamos o Point-Bind, um modelo de multi-modalidade 3D que alinha nuvens de pontos com imagens 2D, linguagem, áudio e vídeo. Guiados pelo ImageBind, construímos um espaço de incorporação conjunta entre 3D e multi-modalidades, permitindo diversas aplicações promissoras, como geração de qualquer-para-3D, aritmética de incorporação 3D e compreensão 3D de mundo aberto. Além disso, apresentamos o Point-LLM, o primeiro modelo de linguagem de grande escala (LLM) 3D que segue instruções multi-modais 3D. Por meio de técnicas de ajuste fino com eficiência de parâmetros, o Point-LLM injeta a semântica do Point-Bind em LLMs pré-treinados, como o LLaMA, o que não requer dados de instrução 3D, mas exibe uma capacidade superior de resposta a perguntas 3D e multi-modais. Esperamos que nosso trabalho possa iluminar a comunidade para a extensão de nuvens de pontos 3D para aplicações de multi-modalidade. O código está disponível em https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with
2D image, language, audio, and video. Guided by ImageBind, we construct a joint
embedding space between 3D and multi-modalities, enabling many promising
applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D
open-world understanding. On top of this, we further present Point-LLM, the
first 3D large language model (LLM) following 3D multi-modal instructions. By
parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of
Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction
data, but exhibits superior 3D and multi-modal question-answering capacity. We
hope our work may cast a light on the community for extending 3D point clouds
to multi-modality applications. Code is available at
https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.