ChatPaper.aiChatPaper

Mosaic-SDF para Modelos Generativos 3D

Mosaic-SDF for 3D Generative Models

December 14, 2023
Autores: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI

Resumen

Los modelos generativos actuales basados en difusión o flujo para formas 3D se dividen en dos categorías: la destilación de modelos de difusión de imágenes 2D preentrenados y el entrenamiento directo sobre formas 3D. Al entrenar modelos de difusión o flujo en formas 3D, una decisión de diseño crucial es la representación de la forma. Una representación efectiva de la forma debe cumplir tres principios de diseño: debe permitir una conversión eficiente de grandes conjuntos de datos 3D a la forma de representación; debe ofrecer un buen equilibrio entre el poder de aproximación y el número de parámetros; y debe tener una forma tensorial simple que sea compatible con arquitecturas neuronales potentes existentes. Mientras que las representaciones estándar de formas 3D, como las mallas volumétricas y las nubes de puntos, no cumplen todos estos principios simultáneamente, en este artículo abogamos por una nueva representación que sí lo hace. Introducimos Mosaic-SDF (M-SDF): una representación simple de formas 3D que aproxima la Función de Distancia con Signo (SDF) de una forma dada utilizando un conjunto de mallas locales distribuidas cerca del límite de la forma. La representación M-SDF es rápida de calcular para cada forma individual, lo que la hace fácilmente paralelizable; es eficiente en parámetros, ya que solo cubre el espacio alrededor del límite de la forma; y tiene una forma matricial simple, compatible con arquitecturas basadas en Transformers. Demostramos la eficacia de la representación M-SDF utilizándola para entrenar un modelo generativo de flujo 3D, incluyendo la generación condicionada por clase con el conjunto de datos 3D Warehouse, y la generación de texto a 3D utilizando un conjunto de datos de aproximadamente 600k pares de descripción-forma.
English
Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape's boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape's boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs.
PDF194December 15, 2024