GPT4Point: ポイントと言語の理解と生成のための統合フレームワーク
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
著者: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、2D画像とテキストの理解および画像生成において優れた性能を発揮しているが、3D世界の理解は著しく不足しており、3D言語理解と生成の進展を制限している。この問題を解決するため、我々はGPT4Pointを導入する。これは、MLLMフレームワーク内で統一された3Dオブジェクト理解と生成のために特別に設計された革新的なポイント言語マルチモーダルモデルである。GPT4Pointは、強力な3D MLLMとして、ポイントクラウドのキャプション生成やQ&Aなどの多様なポイントテキスト参照タスクをシームレスに実行できる。さらに、GPT4Pointは制御可能な3D生成の高度な能力を備えており、低品質のポイントテキスト特徴を維持しながら幾何学的形状と色を保持した高品質な結果を得ることができる。3Dオブジェクトとテキストのペアの広範なニーズをサポートするため、我々はPyramid-XLを開発した。これは、ポイント言語データセットアノテーションエンジンであり、Objaverse-XLデータセットから1M以上の多様なテキスト粒度レベルを持つ大規模なデータベースを構築し、GPT4Pointのトレーニングに不可欠である。3Dポイント言語理解能力を評価するための包括的なベンチマークが提案されており、広範な評価において、GPT4Pointは理解と生成において優れた性能を示している。
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.