ChatPaper.aiChatPaper

Point-Bind & Point-LLM : Alignement des nuages de points avec la multimodalité pour la compréhension, la génération et le suivi d'instructions en 3D

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

September 1, 2023
Auteurs: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI

Résumé

Nous présentons Point-Bind, un modèle multi-modal 3D alignant des nuages de points avec des images 2D, du langage, de l’audio et de la vidéo. Guidé par ImageBind, nous construisons un espace d’intégration commun entre les données 3D et les multi-modalités, permettant de nombreuses applications prometteuses, telles que la génération any-to-3D, l’arithmétique d’intégration 3D et la compréhension 3D du monde ouvert. Sur cette base, nous présentons également Point-LLM, le premier grand modèle de langage (LLM) 3D suivant des instructions multi-modales 3D. Grâce à des techniques de réglage efficace en paramètres, Point-LLM intègre la sémantique de Point-Bind dans des LLM pré-entraînés, tels que LLaMA, sans nécessiter de données d’instruction 3D, tout en démontrant une capacité supérieure en réponse à des questions 3D et multi-modales. Nous espérons que notre travail éclairera la communauté sur l’extension des nuages de points 3D aux applications multi-modales. Le code est disponible à l’adresse suivante : https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with 2D image, language, audio, and video. Guided by ImageBind, we construct a joint embedding space between 3D and multi-modalities, enabling many promising applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D open-world understanding. On top of this, we further present Point-LLM, the first 3D large language model (LLM) following 3D multi-modal instructions. By parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction data, but exhibits superior 3D and multi-modal question-answering capacity. We hope our work may cast a light on the community for extending 3D point clouds to multi-modality applications. Code is available at https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
PDF131December 15, 2024