ChatPaper.aiChatPaper

Point-Bind & Point-LLM: Согласование облаков точек с мультимодальностью для понимания, генерации и выполнения инструкций в 3D

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

September 1, 2023
Авторы: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, Pheng-Ann Heng
cs.AI

Аннотация

Мы представляем Point-Bind — многомодальную модель для работы с 3D-данными, которая связывает облака точек с 2D-изображениями, текстом, аудио и видео. Руководствуясь подходом ImageBind, мы создаем совместное пространство вложений между 3D-данными и многомодальными представлениями, что открывает возможности для множества перспективных приложений, таких как генерация 3D-объектов из любых данных, арифметика 3D-вложений и понимание 3D-мира в открытых условиях. Кроме того, мы представляем Point-LLM — первую крупную языковую модель (LLM) для работы с 3D-данными, способную выполнять инструкции, связанные с многомодальными 3D-задачами. Используя методы параметрически эффективной тонкой настройки, Point-LLM интегрирует семантику Point-Bind в предобученные LLM, такие как LLaMA, что не требует данных для обучения на 3D-инструкциях, но демонстрирует превосходные способности в ответах на вопросы, связанные с 3D-данными и многомодальностью. Мы надеемся, что наша работа вдохновит сообщество на расширение применения 3D-облаков точек в многомодальных приложениях. Код доступен по адресу https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
English
We introduce Point-Bind, a 3D multi-modality model aligning point clouds with 2D image, language, audio, and video. Guided by ImageBind, we construct a joint embedding space between 3D and multi-modalities, enabling many promising applications, e.g., any-to-3D generation, 3D embedding arithmetic, and 3D open-world understanding. On top of this, we further present Point-LLM, the first 3D large language model (LLM) following 3D multi-modal instructions. By parameter-efficient fine-tuning techniques, Point-LLM injects the semantics of Point-Bind into pre-trained LLMs, e.g., LLaMA, which requires no 3D instruction data, but exhibits superior 3D and multi-modal question-answering capacity. We hope our work may cast a light on the community for extending 3D point clouds to multi-modality applications. Code is available at https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.
PDF131December 15, 2024