GPT4Point: Um Framework Unificado para Compreensão e Geração de Pontos-Linguagem
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
Autores: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm se destacado na compreensão e geração de imagens 2D com texto, mas sua compreensão do mundo 3D é notavelmente deficiente, limitando o progresso na compreensão e geração de linguagem 3D. Para resolver esse problema, introduzimos o GPT4Point, um modelo multimodal inovador e revolucionário que integra pontos e linguagem, projetado especificamente para a compreensão e geração unificada de objetos 3D dentro do framework MLLM. O GPT4Point, como um poderoso MLLM 3D, pode executar de forma contínua uma variedade de tarefas de referência ponto-texto, como legendagem de nuvens de pontos e perguntas e respostas. Além disso, o GPT4Point é equipado com capacidades avançadas para geração 3D controlável, podendo obter resultados de alta qualidade através de características ponto-texto de baixa qualidade, mantendo as formas geométricas e cores. Para atender às amplas necessidades de pares objeto-texto 3D, desenvolvemos o Pyramid-XL, um mecanismo de anotação de dados ponto-linguagem. Ele constrói um banco de dados em larga escala com mais de 1 milhão de objetos de diversos níveis de granularidade de texto a partir do conjunto de dados Objaverse-XL, essencial para o treinamento do GPT4Point. Um benchmark abrangente foi proposto para avaliar as capacidades de compreensão ponto-linguagem 3D. Em avaliações extensivas, o GPT4Point demonstrou desempenho superior em compreensão e geração.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.