ChatPaper.aiChatPaper

Расширение возможностей авторегрессивных моделей для генерации 3D-форм с учетом производительности и масштабируемости

Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

February 19, 2024
Авторы: Xuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu
cs.AI

Аннотация

Авторегрессионные модели достигли впечатляющих результатов в генерации 2D-изображений, моделируя совместные распределения в пространстве сетки. В данной работе мы расширяем авторегрессионные модели на 3D-области и стремимся к повышению способности генерации 3D-форм, одновременно улучшая их емкость и масштабируемость. Во-первых, мы используем ансамбль общедоступных 3D-наборов данных для облегчения обучения крупномасштабных моделей. Он состоит из обширной коллекции, включающей примерно 900 000 объектов, с множеством свойств, таких как меши, точки, воксели, рендеренные изображения и текстовые описания. Этот разнообразный размеченный набор данных, названный Objaverse-Mix, позволяет нашей модели обучаться на широком спектре вариаций объектов. Однако прямое применение 3D-авторегрессии сталкивается с критическими проблемами высоких вычислительных затрат на объемные сетки и неоднозначного порядка авторегрессии по измерениям сетки, что приводит к низкому качеству 3D-форм. Для решения этих проблем мы представляем новую архитектуру Argus3D, ориентированную на повышение емкости. Конкретно, наш подход вводит дискретное обучение представлений на основе латентного вектора вместо объемных сеток, что не только снижает вычислительные затраты, но и сохраняет важные геометрические детали, обучая совместные распределения в более управляемом порядке. Емкость условной генерации может быть реализована путем простого объединения различных условных входных данных с латентным вектором, таких как облака точек, категории, изображения и тексты. Кроме того, благодаря простоте архитектуры нашей модели, мы естественным образом масштабируем наш подход до более крупной модели с впечатляющими 3,6 миллиардами параметров, что дополнительно повышает качество универсальной 3D-генерации. Многочисленные эксперименты на четырех задачах генерации демонстрируют, что Argus3D способен синтезировать разнообразные и точные формы в различных категориях, достигая выдающихся результатов.
English
Auto-regressive models have achieved impressive results in 2D image generation by modeling joint distributions in grid space. In this paper, we extend auto-regressive models to 3D domains, and seek a stronger ability of 3D shape generation by improving auto-regressive models at capacity and scalability simultaneously. Firstly, we leverage an ensemble of publicly available 3D datasets to facilitate the training of large-scale models. It consists of a comprehensive collection of approximately 900,000 objects, with multiple properties of meshes, points, voxels, rendered images, and text captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our model to learn from a wide range of object variations. However, directly applying 3D auto-regression encounters critical challenges of high computational demands on volumetric grids and ambiguous auto-regressive order along grid dimensions, resulting in inferior quality of 3D shapes. To this end, we then present a novel framework Argus3D in terms of capacity. Concretely, our approach introduces discrete representation learning based on a latent vector instead of volumetric grids, which not only reduces computational costs but also preserves essential geometric details by learning the joint distributions in a more tractable order. The capacity of conditional generation can thus be realized by simply concatenating various conditioning inputs to the latent vector, such as point clouds, categories, images, and texts. In addition, thanks to the simplicity of our model architecture, we naturally scale up our approach to a larger model with an impressive 3.6 billion parameters, further enhancing the quality of versatile 3D generation. Extensive experiments on four generation tasks demonstrate that Argus3D can synthesize diverse and faithful shapes across multiple categories, achieving remarkable performance.
PDF91December 15, 2024