GPT4Point : Un Cadre Unifié pour la Compréhension et la Génération Point-Langue
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
Auteurs: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
Résumé
Les modèles de langage multimodaux de grande envergure (MLLMs) ont excellé dans la compréhension et la génération d'images 2D associées à du texte, mais leur compréhension du monde en 3D reste notablement déficiente, ce qui limite les progrès dans la compréhension et la génération de langage en 3D. Pour résoudre ce problème, nous introduisons GPT4Point, un modèle multimodal innovant et révolutionnaire conçu spécifiquement pour une compréhension et une génération unifiées d'objets 3D dans le cadre des MLLMs. GPT4Point, en tant que puissant MLLM 3D, peut exécuter de manière fluide une variété de tâches de référence point-texte telles que la légende de nuages de points et les questions-réponses. De plus, GPT4Point est équipé de capacités avancées pour la génération 3D contrôlée, permettant d'obtenir des résultats de haute qualité à partir de caractéristiques point-texte de faible qualité tout en conservant les formes géométriques et les couleurs. Pour répondre aux besoins étendus en paires objet-texte 3D, nous avons développé Pyramid-XL, un moteur d'annotation de données point-langage. Il construit une base de données à grande échelle comprenant plus d'un million d'objets avec des niveaux de granularité textuelle variés, extraits du jeu de données Objaverse-XL, essentiels pour l'entraînement de GPT4Point. Un benchmark complet a été proposé pour évaluer les capacités de compréhension point-langage en 3D. Dans des évaluations approfondies, GPT4Point a démontré une performance supérieure en compréhension et en génération.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.