3D生成モデルのためのMosaic-SDF
Mosaic-SDF for 3D Generative Models
December 14, 2023
著者: Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman
cs.AI
要旨
現在の3D形状のための拡散モデルまたはフローベース生成モデルは、事前学習済みの2D画像拡散モデルを蒸留する方法と、3D形状に対して直接学習を行う方法の2つに大別されます。3D形状に対して拡散モデルまたはフローモデルを学習する際、重要な設計上の選択肢は形状表現です。効果的な形状表現は、以下の3つの設計原則に従う必要があります:大規模な3Dデータセットをその表現形式に効率的に変換できること、近似能力とパラメータ数の間で良好なトレードオフを提供すること、そして既存の強力なニューラルネットワークアーキテクチャと互換性のある単純なテンソル形式を持つことです。ボクセルグリッドや点群といった標準的な3D形状表現は、これらの原則を同時に満たすことはありませんが、本論文ではそれらを満たす新しい表現を提案します。我々はMosaic-SDF(M-SDF)を紹介します:これは、与えられた形状の符号付き距離関数(SDF)を、形状の境界付近に広がる一連のローカルグリッドを用いて近似する、シンプルな3D形状表現です。M-SDF表現は、各形状に対して個別に高速に計算可能であり、容易に並列化できること、形状の境界周辺の空間のみをカバーするためパラメータ効率が良いこと、そしてTransformerベースのアーキテクチャと互換性のある単純な行列形式を持つことが特徴です。我々は、M-SDF表現の有効性を、3D Warehouseデータセットを用いたクラス条件付き生成を含む3D生成フローモデルの学習、および約60万のキャプション-形状ペアからなるデータセットを用いたテキストから3Dへの生成を通じて実証します。
English
Current diffusion or flow-based generative models for 3D shapes divide to
two: distilling pre-trained 2D image diffusion models, and training directly on
3D shapes. When training a diffusion or flow models on 3D shapes a crucial
design choice is the shape representation. An effective shape representation
needs to adhere three design principles: it should allow an efficient
conversion of large 3D datasets to the representation form; it should provide a
good tradeoff of approximation power versus number of parameters; and it should
have a simple tensorial form that is compatible with existing powerful neural
architectures. While standard 3D shape representations such as volumetric grids
and point clouds do not adhere to all these principles simultaneously, we
advocate in this paper a new representation that does. We introduce Mosaic-SDF
(M-SDF): a simple 3D shape representation that approximates the Signed Distance
Function (SDF) of a given shape by using a set of local grids spread near the
shape's boundary. The M-SDF representation is fast to compute for each shape
individually making it readily parallelizable; it is parameter efficient as it
only covers the space around the shape's boundary; and it has a simple matrix
form, compatible with Transformer-based architectures. We demonstrate the
efficacy of the M-SDF representation by using it to train a 3D generative flow
model including class-conditioned generation with the 3D Warehouse dataset, and
text-to-3D generation using a dataset of about 600k caption-shape pairs.