ウェーブレット潜在拡散(Wala):コンパクトなウェーブレット符号化を備えた 10億パラメータ3D生成モデル
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
November 12, 2024
著者: Aditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani
cs.AI
要旨
大規模な3D生成モデルは、多大な計算リソースを必要としますが、しばしば高解像度で微細な詳細や複雑な幾何学を捉えることができません。この制限は、現在の表現の非効率性に起因しており、これらの表現は生成モデルを効果的にモデル化するために必要なコンパクトさを欠いていると考えています。この問題に対処するために、Wavelet Latent Diffusion(WaLa)と呼ばれる新しいアプローチを導入し、3D形状をウェーブレットベースのコンパクトな潜在符号化にエンコードします。具体的には、256^3の符号付き距離フィールドを12^3×4の潜在グリッドに圧縮し、詳細の最小損失で印象的な2427倍の圧縮率を達成します。この高い圧縮率により、当社の手法は推論時間を増やすことなく、大規模な生成ネットワークを効率的にトレーニングすることができます。当社のモデルは、条件付きおよび無条件の両方で約10億のパラメータを含み、256^3の解像度で高品質な3D形状を生成することに成功しています。さらに、WaLaは迅速な推論を提供し、モデルのスケールに関わらず、条件に応じて2〜4秒で形状を生成します。私たちは、複数のデータセットで最先端のパフォーマンスを実証し、生成品質、多様性、および計算効率の大幅な改善を達成しています。私たちは当社のコードをオープンソース化し、私たちの知る限りでは、さまざまなモダリティにわたる最大の事前学習済み3D生成モデルを公開しています。
English
Large-scale 3D generative models require substantial computational resources
yet often fall short in capturing fine details and complex geometries at high
resolutions. We attribute this limitation to the inefficiency of current
representations, which lack the compactness required to model the generative
models effectively. To address this, we introduce a novel approach called
Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based,
compact latent encodings. Specifically, we compress a 256^3 signed distance
field into a 12^3 times 4 latent grid, achieving an impressive 2427x
compression ratio with minimal loss of detail. This high level of compression
allows our method to efficiently train large-scale generative networks without
increasing the inference time. Our models, both conditional and unconditional,
contain approximately one billion parameters and successfully generate
high-quality 3D shapes at 256^3 resolution. Moreover, WaLa offers rapid
inference, producing shapes within two to four seconds depending on the
condition, despite the model's scale. We demonstrate state-of-the-art
performance across multiple datasets, with significant improvements in
generation quality, diversity, and computational efficiency. We open-source our
code and, to the best of our knowledge, release the largest pretrained 3D
generative models across different modalities.Summary
AI-Generated Summary