Mosaic-SDF pour les modèles génératifs 3D
Mosaic-SDF for 3D Generative Models
December 14, 2023
Auteurs: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI
Résumé
Les modèles génératifs actuels basés sur la diffusion ou les flux pour les formes 3D se divisent en deux catégories : la distillation de modèles de diffusion d'images 2D pré-entraînés, et l'entraînement direct sur des formes 3D. Lors de l'entraînement d'un modèle de diffusion ou de flux sur des formes 3D, un choix de conception crucial est la représentation de la forme. Une représentation de forme efficace doit respecter trois principes de conception : elle doit permettre une conversion efficace de grands ensembles de données 3D vers la forme de représentation ; elle doit offrir un bon compromis entre la puissance d'approximation et le nombre de paramètres ; et elle doit avoir une forme tensorielle simple compatible avec les architectures neuronales puissantes existantes. Alors que les représentations standard de formes 3D telles que les grilles volumétriques et les nuages de points ne respectent pas simultanément tous ces principes, nous défendons dans cet article une nouvelle représentation qui le fait. Nous introduisons Mosaic-SDF (M-SDF) : une représentation simple de formes 3D qui approxime la fonction de distance signée (SDF) d'une forme donnée en utilisant un ensemble de grilles locales réparties près de la frontière de la forme. La représentation M-SDF est rapide à calculer pour chaque forme individuellement, ce qui la rend facilement parallélisable ; elle est efficace en termes de paramètres car elle ne couvre que l'espace autour de la frontière de la forme ; et elle a une forme matricielle simple, compatible avec les architectures basées sur les Transformers. Nous démontrons l'efficacité de la représentation M-SDF en l'utilisant pour entraîner un modèle génératif de flux 3D, incluant la génération conditionnée par classe avec le jeu de données 3D Warehouse, et la génération de texte vers 3D en utilisant un jeu de données d'environ 600 000 paires légende-forme.
English
Current diffusion or flow-based generative models for 3D shapes divide to
two: distilling pre-trained 2D image diffusion models, and training directly on
3D shapes. When training a diffusion or flow models on 3D shapes a crucial
design choice is the shape representation. An effective shape representation
needs to adhere three design principles: it should allow an efficient
conversion of large 3D datasets to the representation form; it should provide a
good tradeoff of approximation power versus number of parameters; and it should
have a simple tensorial form that is compatible with existing powerful neural
architectures. While standard 3D shape representations such as volumetric grids
and point clouds do not adhere to all these principles simultaneously, we
advocate in this paper a new representation that does. We introduce Mosaic-SDF
(M-SDF): a simple 3D shape representation that approximates the Signed Distance
Function (SDF) of a given shape by using a set of local grids spread near the
shape's boundary. The M-SDF representation is fast to compute for each shape
individually making it readily parallelizable; it is parameter efficient as it
only covers the space around the shape's boundary; and it has a simple matrix
form, compatible with Transformer-based architectures. We demonstrate the
efficacy of the M-SDF representation by using it to train a 3D generative flow
model including class-conditioned generation with the 3D Warehouse dataset, and
text-to-3D generation using a dataset of about 600k caption-shape pairs.