ChatPaper.aiChatPaper

Mosaic-SDF для генеративных 3D-моделей

Mosaic-SDF for 3D Generative Models

December 14, 2023
Авторы: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI

Аннотация

Современные диффузионные или потоковые генеративные модели для 3D-форм делятся на два типа: дистилляция предобученных диффузионных моделей для 2D-изображений и прямое обучение на 3D-формах. При обучении диффузионных или потоковых моделей на 3D-формах ключевым выбором является представление формы. Эффективное представление формы должно соответствовать трем принципам: оно должно позволять эффективное преобразование больших наборов 3D-данных в нужную форму; обеспечивать оптимальный баланс между точностью аппроксимации и количеством параметров; и иметь простую тензорную форму, совместимую с существующими мощными нейронными архитектурами. Хотя стандартные представления 3D-форм, такие как воксельные сетки и облака точек, не соответствуют всем этим принципам одновременно, в данной статье мы предлагаем новое представление, которое их удовлетворяет. Мы представляем Mosaic-SDF (M-SDF): простое представление 3D-форм, которое аппроксимирует функцию знакового расстояния (SDF) для заданной формы с использованием набора локальных сеток, распределенных вблизи границы формы. Представление M-SDF быстро вычисляется для каждой формы в отдельности, что делает его легко параллелизуемым; оно эффективно по параметрам, так как покрывает только пространство вокруг границы формы; и имеет простую матричную форму, совместимую с архитектурами на основе трансформеров. Мы демонстрируем эффективность представления M-SDF, используя его для обучения 3D-генеративной потоковой модели, включая условную генерацию по классам на наборе данных 3D Warehouse, а также генерацию 3D-форм по тексту с использованием набора данных из около 600 тысяч пар "описание-форма".
English
Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape's boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape's boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs.
PDF194December 15, 2024