GPT4Point: Un Marco Unificado para la Comprensión y Generación de Puntos-Lenguaje

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

December 5, 2023
Autores: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han destacado en la comprensión y generación de imágenes 2D a partir de texto, pero su comprensión del mundo 3D es notablemente deficiente, lo que limita el avance en la comprensión y generación de lenguaje en 3D. Para resolver este problema, presentamos GPT4Point, un innovador y revolucionario modelo multimodal punto-lenguaje diseñado específicamente para la comprensión y generación unificada de objetos 3D dentro del marco de los MLLMs. GPT4Point, como un potente MLLM 3D, puede ejecutar de manera fluida una variedad de tareas de referencia punto-texto, como la descripción de nubes de puntos y preguntas y respuestas. Además, GPT4Point está equipado con capacidades avanzadas para la generación controlada en 3D, pudiendo obtener resultados de alta calidad a partir de características punto-texto de baja calidad, manteniendo las formas geométricas y los colores. Para satisfacer las amplias necesidades de pares objeto-texto en 3D, desarrollamos Pyramid-XL, un motor de anotación de datos punto-lenguaje. Este construye una base de datos a gran escala con más de 1 millón de objetos de diversos niveles de granularidad textual a partir del conjunto de datos Objaverse-XL, esencial para entrenar GPT4Point. Se ha propuesto un benchmark exhaustivo para evaluar las capacidades de comprensión punto-lenguaje en 3D. En evaluaciones extensivas, GPT4Point ha demostrado un rendimiento superior en comprensión y generación.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text comprehension and image generation, but their understanding of the 3D world is notably deficient, limiting progress in 3D language understanding and generation. To solve this problem, we introduce GPT4Point, an innovative groundbreaking point-language multimodal model designed specifically for unified 3D object understanding and generation within the MLLM framework. GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point is equipped with advanced capabilities for controllable 3D generation, it can get high-quality results through a low-quality point-text feature maintaining the geometric shapes and colors. To support the expansive needs of 3D object-text pairs, we develop Pyramid-XL, a point-language dataset annotation engine. It constructs a large-scale database over 1M objects of varied text granularity levels from the Objaverse-XL dataset, essential for training GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D point-language understanding capabilities. In extensive evaluations, GPT4Point has demonstrated superior performance in understanding and generation.
PDF100December 15, 2024