Point-Bind & Point-LLM : Alignement des nuages de points avec la multimodalité pour la compréhension, la génération et le suivi d'instructions en 3D
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
September 1, 2023
Auteurs: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI
Résumé
Nous présentons Point-Bind, un modèle multi-modal 3D alignant des nuages de points avec des images 2D, du langage, de l’audio et de la vidéo. Guidé par ImageBind, nous construisons un espace d’intégration commun entre les données 3D et les multi-modalités, permettant de nombreuses applications prometteuses, telles que la génération any-to-3D, l’arithmétique d’intégration 3D et la compréhension 3D du monde ouvert. Sur cette base, nous présentons également Point-LLM, le premier grand modèle de langage (LLM) 3D suivant des instructions multi-modales 3D. Grâce à des techniques de réglage efficace en paramètres, Point-LLM intègre la sémantique de Point-Bind dans des LLM pré-entraînés, tels que LLaMA, sans nécessiter de données d’instruction 3D, tout en démontrant une capacité supérieure en réponse à des questions 3D et multi-modales. Nous espérons que notre travail éclairera la communauté sur l’extension des nuages de points 3D aux applications multi-modales. Le code est disponible à l’adresse suivante : https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with
2D image, language, audio, and video. Guided by ImageBind, we construct a joint
embedding space between 3D and multi-modalities, enabling many promising
applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D
open-world understanding. On top of this, we further present Point-LLM, the
first 3D large language model (LLM) following 3D multi-modal instructions. By
parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of
Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction
data, but exhibits superior 3D and multi-modal question-answering capacity. We
hope our work may cast a light on the community for extending 3D point clouds
to multi-modality applications. Code is available at
https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.