Mosaic-SDF per Modelli Generativi 3D
Mosaic-SDF for 3D Generative Models
December 14, 2023
Autori: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI
Abstract
I modelli generativi basati su diffusione o flusso per le forme 3D attualmente si dividono in due categorie: la distillazione di modelli di diffusione pre-addestrati su immagini 2D e l'addestramento diretto su forme 3D. Quando si addestra un modello di diffusione o flusso su forme 3D, una scelta progettuale cruciale è la rappresentazione della forma. Una rappresentazione efficace delle forme deve rispettare tre principi progettuali: deve consentire una conversione efficiente di grandi dataset 3D nella forma di rappresentazione; deve offrire un buon compromesso tra potere di approssimazione e numero di parametri; e deve avere una forma tensoriale semplice compatibile con le potenti architetture neurali esistenti. Mentre le rappresentazioni standard delle forme 3D, come griglie volumetriche e nuvole di punti, non rispettano simultaneamente tutti questi principi, in questo articolo sosteniamo una nuova rappresentazione che lo fa. Introduciamo Mosaic-SDF (M-SDF): una semplice rappresentazione delle forme 3D che approssima la Funzione di Distanza con Segno (SDF) di una data forma utilizzando un insieme di griglie locali distribuite vicino al confine della forma. La rappresentazione M-SDF è veloce da calcolare per ogni singola forma, rendendola facilmente parallelizzabile; è efficiente in termini di parametri poiché copre solo lo spazio intorno al confine della forma; e ha una forma matriciale semplice, compatibile con architetture basate su Transformer. Dimostriamo l'efficacia della rappresentazione M-SDF utilizzandola per addestrare un modello generativo di flusso 3D, inclusa la generazione condizionata alla classe con il dataset 3D Warehouse e la generazione da testo a 3D utilizzando un dataset di circa 600k coppie didascalia-forma.
English
Current diffusion or flow-based generative models for 3D shapes divide to
two: distilling pre-trained 2D image diffusion models, and training directly on
3D shapes. When training a diffusion or flow models on 3D shapes a crucial
design choice is the shape representation. An effective shape representation
needs to adhere three design principles: it should allow an efficient
conversion of large 3D datasets to the representation form; it should provide a
good tradeoff of approximation power versus number of parameters; and it should
have a simple tensorial form that is compatible with existing powerful neural
architectures. While standard 3D shape representations such as volumetric grids
and point clouds do not adhere to all these principles simultaneously, we
advocate in this paper a new representation that does. We introduce Mosaic-SDF
(M-SDF): a simple 3D shape representation that approximates the Signed Distance
Function (SDF) of a given shape by using a set of local grids spread near the
shape's boundary. The M-SDF representation is fast to compute for each shape
individually making it readily parallelizable; it is parameter efficient as it
only covers the space around the shape's boundary; and it has a simple matrix
form, compatible with Transformer-based architectures. We demonstrate the
efficacy of the M-SDF representation by using it to train a 3D generative flow
model including class-conditioned generation with the 3D Warehouse dataset, and
text-to-3D generation using a dataset of about 600k caption-shape pairs.