ChatPaper.aiChatPaper

GPT4Point: Een Geïntegreerd Framework voor Punt-Taalbegrip en Generatie

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

December 5, 2023
Auteurs: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben uitstekende prestaties geleverd op het gebied van 2D beeld-tekstbegrip en beeldgeneratie, maar hun begrip van de 3D-wereld is opvallend beperkt, wat de vooruitgang in 3D taalbegrip en -generatie belemmert. Om dit probleem op te lossen, introduceren we GPT4Point, een innovatief en baanbrekend punt-taal multimodaal model dat specifiek is ontworpen voor uniform 3D-objectbegrip en -generatie binnen het MLLM-framework. GPT4Point, als een krachtige 3D MLLM, kan naadloos een verscheidenheid aan punt-tekst referentietaken uitvoeren, zoals point-cloud beschrijvingen en vraag-en-antwoord. Daarnaast is GPT4Point uitgerust met geavanceerde mogelijkheden voor controleerbare 3D-generatie, waarbij het hoogwaardige resultaten kan behalen via een laagwaardige punt-tekst feature, waarbij de geometrische vormen en kleuren behouden blijven. Om aan de uitgebreide behoeften van 3D object-tekst paren te voldoen, ontwikkelen we Pyramid-XL, een punt-taal dataset annotatie-engine. Het construeert een grootschalige database met meer dan 1 miljoen objecten van verschillende tekstgranulariteitsniveaus uit de Objaverse-XL dataset, essentieel voor het trainen van GPT4Point. Een uitgebreide benchmark is voorgesteld om de 3D punt-taalbegripcapaciteiten te evalueren. In uitgebreide evaluaties heeft GPT4Point superieure prestaties getoond in begrip en generatie.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text comprehension and image generation, but their understanding of the 3D world is notably deficient, limiting progress in 3D language understanding and generation. To solve this problem, we introduce GPT4Point, an innovative groundbreaking point-language multimodal model designed specifically for unified 3D object understanding and generation within the MLLM framework. GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point is equipped with advanced capabilities for controllable 3D generation, it can get high-quality results through a low-quality point-text feature maintaining the geometric shapes and colors. To support the expansive needs of 3D object-text pairs, we develop Pyramid-XL, a point-language dataset annotation engine. It constructs a large-scale database over 1M objects of varied text granularity levels from the Objaverse-XL dataset, essential for training GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D point-language understanding capabilities. In extensive evaluations, GPT4Point has demonstrated superior performance in understanding and generation.
PDF100December 15, 2024