ChatPaper.aiChatPaper

Point-Bind & Point-LLM: Alineación de Nubes de Puntos con Multimodalidad para la Comprensión, Generación y Seguimiento de Instrucciones en 3D

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

September 1, 2023
Autores: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI

Resumen

Presentamos Point-Bind, un modelo de multi-modalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video. Guiados por ImageBind, construimos un espacio de incrustación conjunta entre 3D y multi-modalidades, lo que permite muchas aplicaciones prometedoras, como la generación de cualquier cosa a 3D, aritmética de incrustaciones 3D y comprensión del mundo abierto en 3D. Además, presentamos Point-LLM, el primer modelo de lenguaje grande (LLM) 3D que sigue instrucciones multi-modales en 3D. Mediante técnicas de ajuste fino eficiente en parámetros, Point-LLM inyecta la semántica de Point-Bind en LLMs preentrenados, como LLaMA, lo que no requiere datos de instrucción 3D, pero exhibe una capacidad superior para responder preguntas en 3D y multi-modales. Esperamos que nuestro trabajo ilumine a la comunidad para extender las nubes de puntos 3D a aplicaciones multi-modales. El código está disponible en https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with 2D image, language, audio, and video. Guided by ImageBind, we construct a joint embedding space between 3D and multi-modalities, enabling many promising applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D open-world understanding. On top of this, we further present Point-LLM, the first 3D large language model (LLM) following 3D multi-modal instructions. By parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction data, but exhibits superior 3D and multi-modal question-answering capacity. We hope our work may cast a light on the community for extending 3D point clouds to multi-modality applications. Code is available at https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
PDF131December 15, 2024