GPT4Point: Унифицированная структура для понимания и генерации текста на основе точек данных
GPT4Point: A Unified Framework for Point-Language Understanding and Generation
December 5, 2023
Авторы: Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) достигли значительных успехов в понимании и генерации двумерных изображений и текста, однако их понимание трехмерного мира остается недостаточным, что ограничивает прогресс в области понимания и генерации 3D-контента. Для решения этой проблемы мы представляем GPT4Point — инновационную модель, объединяющую обработку точечных данных и языка, специально разработанную для унифицированного понимания и генерации 3D-объектов в рамках MLLM. GPT4Point, как мощная 3D MLLM, способна выполнять разнообразные задачи, связанные с обработкой точечных данных и текста, такие как описание облаков точек и ответы на вопросы. Кроме того, GPT4Point оснащена передовыми возможностями для контролируемой 3D-генерации, позволяя получать высококачественные результаты даже при использовании низкокачественных точечно-текстовых характеристик, сохраняя при этом геометрические формы и цвета. Для поддержки масштабных потребностей в парных данных 3D-объектов и текста мы разработали Pyramid-XL — механизм аннотирования точечно-языковых данных. Он создает крупномасштабную базу данных, содержащую более 1 миллиона объектов с различными уровнями текстовой детализации, на основе набора данных Objaverse-XL, что является важным для обучения GPT4Point. Для оценки возможностей понимания точечно-языковых данных в 3D был предложен комплексный бенчмарк. В ходе обширных оценок GPT4Point продемонстрировала превосходные результаты в понимании и генерации.
English
Multimodal Large Language Models (MLLMs) have excelled in 2D image-text
comprehension and image generation, but their understanding of the 3D world is
notably deficient, limiting progress in 3D language understanding and
generation. To solve this problem, we introduce GPT4Point, an innovative
groundbreaking point-language multimodal model designed specifically for
unified 3D object understanding and generation within the MLLM framework.
GPT4Point as a powerful 3D MLLM seamlessly can execute a variety of point-text
reference tasks such as point-cloud captioning and Q&A. Additionally, GPT4Point
is equipped with advanced capabilities for controllable 3D generation, it can
get high-quality results through a low-quality point-text feature maintaining
the geometric shapes and colors. To support the expansive needs of 3D
object-text pairs, we develop Pyramid-XL, a point-language dataset annotation
engine. It constructs a large-scale database over 1M objects of varied text
granularity levels from the Objaverse-XL dataset, essential for training
GPT4Point. A comprehensive benchmark has been proposed to evaluate 3D
point-language understanding capabilities. In extensive evaluations, GPT4Point
has demonstrated superior performance in understanding and generation.