Mosaic-SDF voor 3D Generatieve Modellen
Mosaic-SDF for 3D Generative Models
December 14, 2023
Auteurs: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI
Samenvatting
Huidige diffusie- of stroomgebaseerde generatieve modellen voor 3D-vormen vallen uiteen in twee categorieën: het destilleren van vooraf getrainde 2D-beelddiffusiemodellen, en het direct trainen op 3D-vormen. Bij het trainen van een diffusie- of stroommodel op 3D-vormen is een cruciale ontwerpkeuze de vormrepresentatie. Een effectieve vormrepresentatie moet aan drie ontwerpprincipes voldoen: het moet een efficiënte conversie van grote 3D-datasets naar de representatievorm mogelijk maken; het moet een goede balans bieden tussen benaderingskracht en het aantal parameters; en het moet een eenvoudige tensoriële vorm hebben die compatibel is met bestaande krachtige neurale architecturen. Terwijl standaard 3D-vormrepresentaties zoals volumetrische roosters en puntenwolken niet aan al deze principes tegelijk voldoen, bepleiten wij in dit artikel een nieuwe representatie die dat wel doet. We introduceren Mosaic-SDF (M-SDF): een eenvoudige 3D-vormrepresentatie die de Signed Distance Function (SDF) van een gegeven vorm benadert door gebruik te maken van een set lokale roosters verspreid nabij de grens van de vorm. De M-SDF-representatie is snel te berekenen voor elke vorm afzonderlijk, waardoor het gemakkelijk paralleliseerbaar is; het is parameter-efficiënt omdat het alleen de ruimte rond de grens van de vorm beslaat; en het heeft een eenvoudige matrixvorm, compatibel met Transformer-gebaseerde architecturen. We demonstreren de effectiviteit van de M-SDF-representatie door deze te gebruiken om een 3D-generatief stroommodel te trainen, inclusief klasse-geconditioneerde generatie met de 3D Warehouse-dataset, en tekst-naar-3D-generatie met behulp van een dataset van ongeveer 600k bijschrift-vorm-paren.
English
Current diffusion or flow-based generative models for 3D shapes divide to
two: distilling pre-trained 2D image diffusion models, and training directly on
3D shapes. When training a diffusion or flow models on 3D shapes a crucial
design choice is the shape representation. An effective shape representation
needs to adhere three design principles: it should allow an efficient
conversion of large 3D datasets to the representation form; it should provide a
good tradeoff of approximation power versus number of parameters; and it should
have a simple tensorial form that is compatible with existing powerful neural
architectures. While standard 3D shape representations such as volumetric grids
and point clouds do not adhere to all these principles simultaneously, we
advocate in this paper a new representation that does. We introduce Mosaic-SDF
(M-SDF): a simple 3D shape representation that approximates the Signed Distance
Function (SDF) of a given shape by using a set of local grids spread near the
shape's boundary. The M-SDF representation is fast to compute for each shape
individually making it readily parallelizable; it is parameter efficient as it
only covers the space around the shape's boundary; and it has a simple matrix
form, compatible with Transformer-based architectures. We demonstrate the
efficacy of the M-SDF representation by using it to train a 3D generative flow
model including class-conditioned generation with the 3D Warehouse dataset, and
text-to-3D generation using a dataset of about 600k caption-shape pairs.