拡張性と多目的性のある3D生成のための構造化された3D潜在表現
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
著者: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
要旨
私たちは、多目的で高品質な3Dアセット作成のための革新的な3D生成手法を紹介します。その基盤となるのは、異なる出力形式(例:Radiance Fields、3D Gaussians、およびメッシュ)へのデコーディングを可能にする統一された構造化LATent(SLAT)表現です。これは、強力なビジョン基盤モデルから抽出された密なマルチビュー視覚特徴と疎に配置された3Dグリッドを統合することにより実現され、デコーディング中に柔軟性を維持しながら、構造(幾何学)とテクスチャ(外観)の両方の情報を包括的に捉えます。私たちは、SLAT向けに調整された修正フロー変換器を使用して3D生成モデルを構築し、50万の多様なオブジェクトからなる大規模な3Dアセットデータセットで最大20億のパラメータを持つモデルを訓練します。当社のモデルは、テキストや画像条件で高品質の結果を生成し、同様のスケールでの最近の手法を含む既存の手法を大幅に上回っています。以前のモデルでは提供されていなかった柔軟な出力形式の選択とローカルな3D編集機能を紹介します。コード、モデル、およびデータは公開されます。
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.Summary
AI-Generated Summary