Shap-E: 条件付き3D陰関数の生成
Shap-E: Generating Conditional 3D Implicit Functions
May 3, 2023
著者: Heewoo Jun, Alex Nichol
cs.AI
要旨
本論文では、3Dアセットのための条件付き生成モデルであるShap-Eを紹介します。最近の3D生成モデルの研究では単一の出力表現を生成するものが主流ですが、Shap-Eはテクスチャ付きメッシュとニューラルラジアンスフィールドの両方としてレンダリング可能な陰関数のパラメータを直接生成します。Shap-Eのトレーニングは2段階で行われます。まず、3Dアセットを陰関数のパラメータに確定的にマッピングするエンコーダをトレーニングし、次に、そのエンコーダの出力に対して条件付き拡散モデルをトレーニングします。大規模な3Dとテキストのペアデータセットでトレーニングを行うことで、複雑で多様な3Dアセットを数秒で生成可能なモデルを実現しました。点群を明示的に生成するモデルであるPoint-Eと比較すると、Shap-Eはより高次元で多表現な出力空間をモデル化しているにもかかわらず、より速く収束し、同等または優れたサンプル品質を達成しています。モデルの重み、推論コード、サンプルはhttps://github.com/openai/shap-eで公開しています。
English
We present Shap-E, a conditional generative model for 3D assets. Unlike
recent work on 3D generative models which produce a single output
representation, Shap-E directly generates the parameters of implicit functions
that can be rendered as both textured meshes and neural radiance fields. We
train Shap-E in two stages: first, we train an encoder that deterministically
maps 3D assets into the parameters of an implicit function; second, we train a
conditional diffusion model on outputs of the encoder. When trained on a large
dataset of paired 3D and text data, our resulting models are capable of
generating complex and diverse 3D assets in a matter of seconds. When compared
to Point-E, an explicit generative model over point clouds, Shap-E converges
faster and reaches comparable or better sample quality despite modeling a
higher-dimensional, multi-representation output space. We release model
weights, inference code, and samples at https://github.com/openai/shap-e.