GPT4Point: Un Framework Unificato per la Comprensione e la Generazione di Punti-Linguaggio
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
Autori: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno eccelso nella comprensione e generazione di immagini 2D e testo, ma la loro comprensione del mondo 3D è notevolmente carente, limitando i progressi nella comprensione e generazione del linguaggio 3D. Per risolvere questo problema, introduciamo GPT4Point, un innovativo modello multimodale punto-linguistico progettato specificamente per la comprensione e generazione unificata di oggetti 3D all'interno del framework MLLM. GPT4Point, come potente MLLM 3D, può eseguire senza soluzione di continuità una varietà di task di riferimento punto-testo come la descrizione di nuvole di punti e domande e risposte. Inoltre, GPT4Point è dotato di capacità avanzate per la generazione controllata di contenuti 3D, ottenendo risultati di alta qualità attraverso caratteristiche punto-testo di bassa qualità, mantenendo le forme geometriche e i colori. Per supportare le ampie esigenze di coppie oggetto-testo 3D, abbiamo sviluppato Pyramid-XL, un motore di annotazione di dataset punto-linguistico. Esso costruisce un database su larga scala con oltre 1 milione di oggetti di vari livelli di granularità testuale dal dataset Objaverse-XL, essenziale per l'addestramento di GPT4Point. È stato proposto un benchmark completo per valutare le capacità di comprensione punto-linguistico 3D. In valutazioni estensive, GPT4Point ha dimostrato prestazioni superiori nella comprensione e generazione.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.