GPT4Point: Ein einheitliches Framework für das Verständnis und die Generierung von Punkt-Sprache
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
Autoren: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben sich bei der 2D-Bild-Text-Verarbeitung und Bildgenerierung hervorgetan, doch ihr Verständnis der 3D-Welt ist deutlich unzureichend, was den Fortschritt im Bereich des 3D-Sprachverständnisses und der -generierung einschränkt. Um dieses Problem zu lösen, stellen wir GPT4Point vor, ein innovatives und bahnbrechendes Punkt-Sprache-Multimodell, das speziell für das einheitliche Verständnis und die Generierung von 3D-Objekten innerhalb des MLLM-Rahmens entwickelt wurde. GPT4Point, ein leistungsstarkes 3D-MLLM, kann nahtlos eine Vielzahl von Punkt-Text-Referenzaufgaben wie Punktwolken-Beschriftung und Frage-Antwort-Systeme ausführen. Darüber hinaus verfügt GPT4Point über fortschrittliche Fähigkeiten zur kontrollierbaren 3D-Generierung und kann hochwertige Ergebnisse durch die Nutzung von niedrigqualitativen Punkt-Text-Merkmalen erzielen, wobei geometrische Formen und Farben erhalten bleiben. Um den umfangreichen Bedarf an 3D-Objekt-Text-Paaren zu unterstützen, entwickeln wir Pyramid-XL, ein Punkt-Sprache-Datensatz-Annotationswerkzeug. Es erstellt eine groß angelegte Datenbank mit über 1M Objekten unterschiedlicher Textgranularitätsstufen aus dem Objaverse-XL-Datensatz, die für das Training von GPT4Point unerlässlich ist. Ein umfassender Benchmark wurde vorgeschlagen, um die Fähigkeiten im 3D-Punkt-Sprache-Verständnis zu bewerten. In umfangreichen Evaluierungen hat GPT4Point überlegene Leistungen im Verständnis und in der Generierung demonstriert.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.