ChatPaper.aiChatPaper

Mosaic-SDF para Modelos Gerativos 3D

Mosaic-SDF for 3D Generative Models

December 14, 2023
Autores: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI

Resumo

Os modelos generativos atuais baseados em difusão ou fluxo para formas 3D se dividem em duas abordagens: destilar modelos de difusão de imagens 2D pré-treinados e treinar diretamente em formas 3D. Ao treinar modelos de difusão ou fluxo em formas 3D, uma escolha crucial de projeto é a representação da forma. Uma representação eficaz da forma precisa aderir a três princípios de projeto: deve permitir uma conversão eficiente de grandes conjuntos de dados 3D para a forma de representação; deve oferecer um bom equilíbrio entre poder de aproximação e número de parâmetros; e deve ter uma forma tensorial simples que seja compatível com arquiteturas neurais poderosas existentes. Embora representações padrão de formas 3D, como grades volumétricas e nuvens de pontos, não atendam a todos esses princípios simultaneamente, defendemos neste artigo uma nova representação que o faz. Apresentamos o Mosaic-SDF (M-SDF): uma representação simples de formas 3D que aproxima a Função de Distância com Sinal (SDF) de uma forma dada, utilizando um conjunto de grades locais distribuídas próximo à fronteira da forma. A representação M-SDF é rápida de calcular para cada forma individual, tornando-a facilmente paralelizável; é eficiente em termos de parâmetros, pois cobre apenas o espaço ao redor da fronteira da forma; e possui uma forma matricial simples, compatível com arquiteturas baseadas em Transformers. Demonstramos a eficácia da representação M-SDF ao utilizá-la para treinar um modelo generativo de fluxo 3D, incluindo geração condicionada por classe com o conjunto de dados 3D Warehouse, e geração de texto para 3D utilizando um conjunto de dados de aproximadamente 600 mil pares de legenda-forma.
English
Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape's boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape's boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs.
PDF194December 15, 2024