GPT4Point: 포인트-언어 이해 및 생성을 위한 통합 프레임워크

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

December 5, 2023
저자: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 2D 이미지-텍스트 이해 및 이미지 생성에서 뛰어난 성과를 보여왔지만, 3D 세계에 대한 이해는 현저히 부족하여 3D 언어 이해 및 생성 분야의 발전을 제한하고 있습니다. 이 문제를 해결하기 위해 우리는 GPT4Point를 소개합니다. GPT4Point는 MLLM 프레임워크 내에서 통합된 3D 객체 이해 및 생성을 위해 특별히 설계된 혁신적인 포인트-언어 멀티모달 모델입니다. 강력한 3D MLLM인 GPT4Point는 포인트 클라우드 캡셔닝 및 질의응답과 같은 다양한 포인트-텍스트 참조 작업을 원활하게 수행할 수 있습니다. 또한 GPT4Point는 제어 가능한 3D 생성을 위한 고급 기능을 갖추고 있어, 낮은 품질의 포인트-텍스트 특징을 통해 기하학적 형태와 색상을 유지하면서도 고품질의 결과를 얻을 수 있습니다. 3D 객체-텍스트 쌍의 광범위한 요구를 지원하기 위해, 우리는 Pyramid-XL이라는 포인트-언어 데이터셋 주석 엔진을 개발했습니다. 이 엔진은 Objaverse-XL 데이터셋에서 다양한 텍스트 세분화 수준의 100만 개 이상의 객체로 구성된 대규모 데이터베이스를 구축하며, 이는 GPT4Point의 훈련에 필수적입니다. 3D 포인트-언어 이해 능력을 평가하기 위한 포괄적인 벤치마크가 제안되었습니다. 광범위한 평가에서 GPT4Point는 이해 및 생성에서 우수한 성능을 입증했습니다.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text comprehension and image generation, but their understanding of the 3D world is notably deficient, limiting progress in 3D language understanding and generation. To solve this problem, we introduce GPT4Point, an innovative groundbreaking point-language multimodal model designed specifically for unified 3D object understanding and generation within the MLLM framework. GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point is equipped with advanced capabilities for controllable 3D generation, it can get high-quality results through a low-quality point-text feature maintaining the geometric shapes and colors. To support the expansive needs of 3D object-text pairs, we develop Pyramid-XL, a point-language dataset annotation engine. It constructs a large-scale database over 1M objects of varied text granularity levels from the Objaverse-XL dataset, essential for training GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D point-language understanding capabilities. In extensive evaluations, GPT4Point has demonstrated superior performance in understanding and generation.
PDF100December 15, 2024