Расширение возможностей авторегрессивных моделей для генерации 3D-форм с учетом производительности и масштабируемости
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability
February 19, 2024
Авторы: Xuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu
cs.AI
Аннотация
Авторегрессионные модели достигли впечатляющих результатов в генерации 2D-изображений, моделируя совместные распределения в пространстве сетки. В данной работе мы расширяем авторегрессионные модели на 3D-области и стремимся к повышению способности генерации 3D-форм, одновременно улучшая их емкость и масштабируемость. Во-первых, мы используем ансамбль общедоступных 3D-наборов данных для облегчения обучения крупномасштабных моделей. Он состоит из обширной коллекции, включающей примерно 900 000 объектов, с множеством свойств, таких как меши, точки, воксели, рендеренные изображения и текстовые описания. Этот разнообразный размеченный набор данных, названный Objaverse-Mix, позволяет нашей модели обучаться на широком спектре вариаций объектов. Однако прямое применение 3D-авторегрессии сталкивается с критическими проблемами высоких вычислительных затрат на объемные сетки и неоднозначного порядка авторегрессии по измерениям сетки, что приводит к низкому качеству 3D-форм. Для решения этих проблем мы представляем новую архитектуру Argus3D, ориентированную на повышение емкости. Конкретно, наш подход вводит дискретное обучение представлений на основе латентного вектора вместо объемных сеток, что не только снижает вычислительные затраты, но и сохраняет важные геометрические детали, обучая совместные распределения в более управляемом порядке. Емкость условной генерации может быть реализована путем простого объединения различных условных входных данных с латентным вектором, таких как облака точек, категории, изображения и тексты. Кроме того, благодаря простоте архитектуры нашей модели, мы естественным образом масштабируем наш подход до более крупной модели с впечатляющими 3,6 миллиардами параметров, что дополнительно повышает качество универсальной 3D-генерации. Многочисленные эксперименты на четырех задачах генерации демонстрируют, что Argus3D способен синтезировать разнообразные и точные формы в различных категориях, достигая выдающихся результатов.
English
Auto-regressive models have achieved impressive results in 2D image
generation by modeling joint distributions in grid space. In this paper, we
extend auto-regressive models to 3D domains, and seek a stronger ability of 3D
shape generation by improving auto-regressive models at capacity and
scalability simultaneously. Firstly, we leverage an ensemble of publicly
available 3D datasets to facilitate the training of large-scale models. It
consists of a comprehensive collection of approximately 900,000 objects, with
multiple properties of meshes, points, voxels, rendered images, and text
captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our
model to learn from a wide range of object variations. However, directly
applying 3D auto-regression encounters critical challenges of high
computational demands on volumetric grids and ambiguous auto-regressive order
along grid dimensions, resulting in inferior quality of 3D shapes. To this end,
we then present a novel framework Argus3D in terms of capacity. Concretely, our
approach introduces discrete representation learning based on a latent vector
instead of volumetric grids, which not only reduces computational costs but
also preserves essential geometric details by learning the joint distributions
in a more tractable order. The capacity of conditional generation can thus be
realized by simply concatenating various conditioning inputs to the latent
vector, such as point clouds, categories, images, and texts. In addition,
thanks to the simplicity of our model architecture, we naturally scale up our
approach to a larger model with an impressive 3.6 billion parameters, further
enhancing the quality of versatile 3D generation. Extensive experiments on four
generation tasks demonstrate that Argus3D can synthesize diverse and faithful
shapes across multiple categories, achieving remarkable performance.