ChatPaper.aiChatPaper

Make-A-Shape: модель трехмерных форм с масштабом в десять миллионов объектов

Make-A-Shape: a Ten-Million-scale 3D Shape Model

January 20, 2024
Авторы: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
cs.AI

Аннотация

Значительный прогресс был достигнут в обучении крупных генеративных моделей для работы с естественным языком и изображениями. Однако развитие 3D-генеративных моделей сдерживается их высокими требованиями к ресурсам для обучения, а также неэффективными, некомпактными и менее выразительными представлениями. В данной статье представлена Make-A-Shape — новая 3D-генеративная модель, разработанная для эффективного обучения в больших масштабах, способная использовать 10 миллионов общедоступных 3D-моделей. С технической точки зрения, мы впервые предлагаем представление на основе вейвлет-дерева для компактного кодирования форм, формулируя схему фильтрации субполосных коэффициентов для эффективного использования их взаимосвязей. Затем мы делаем это представление пригодным для генерации с помощью диффузионной модели, разрабатывая схему упаковки субполосных коэффициентов для размещения представления в низкоразрешающей сетке. Кроме того, мы разрабатываем стратегию адаптивного обучения субполос, чтобы наша модель могла эффективно обучаться генерации как грубых, так и детализированных вейвлет-коэффициентов. Наконец, мы расширяем нашу систему, чтобы она могла управляться дополнительными входными условиями, что позволяет генерировать формы из различных модальностей, таких как одно/многовидовые изображения, облака точек и низкоразрешающие воксели. В наших обширных экспериментах мы демонстрируем различные приложения, включая безусловную генерацию, завершение форм и условную генерацию для широкого спектра модальностей. Наш подход не только превосходит современные методы в достижении высококачественных результатов, но и эффективно генерирует формы за несколько секунд, часто достигая этого всего за 2 секунды для большинства условий.
English
Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.
PDF171December 15, 2024