Point-Bind & Point-LLM: Ausrichtung von Punktwolken mit Multimodalität für 3D-Verständnis, -Generierung und -Befolgung von Anweisungen
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
September 1, 2023
Autoren: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI
Zusammenfassung
Wir stellen Point-Bind vor, ein 3D-Multimodalitätsmodell, das Punktwolken mit 2D-Bildern, Sprache, Audio und Video ausrichtet. Angeleitet durch ImageBind, konstruieren wir einen gemeinsamen Einbettungsraum zwischen 3D und Multimodalitäten, der vielversprechende Anwendungen ermöglicht, wie z.B. Any-to-3D-Generierung, 3D-Einbettungsarithmetik und 3D-Open-World-Verständnis. Darauf aufbauend präsentieren wir weiterhin Point-LLM, das erste 3D-Großsprachmodell (LLM), das 3D-multimodale Anweisungen befolgt. Durch parameter-effiziente Feinabstimmungstechniken integriert Point-LLM die Semantik von Point-Bind in vortrainierte LLMs, wie z.B. LLaMA, was keine 3D-Anweisungsdaten erfordert, aber eine überlegene 3D- und multimodale Frage-Antwort-Fähigkeit zeigt. Wir hoffen, dass unsere Arbeit der Gemeinschaft einen Anstoß geben kann, 3D-Punktwolken auf Multimodalitätsanwendungen auszuweiten. Der Code ist verfügbar unter https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with
2D image, language, audio, and video. Guided by ImageBind, we construct a joint
embedding space between 3D and multi-modalities, enabling many promising
applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D
open-world understanding. On top of this, we further present Point-LLM, the
first 3D large language model (LLM) following 3D multi-modal instructions. By
parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of
Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction
data, but exhibits superior 3D and multi-modal question-answering capacity. We
hope our work may cast a light on the community for extending 3D point clouds
to multi-modality applications. Code is available at
https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.