LGM: 高解像度3Dコンテンツ生成のための大規模マルチビューガウシアンモデル
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
February 7, 2024
著者: Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu
cs.AI
要旨
3Dコンテンツ作成は、品質と速度の両面で大きな進展を遂げています。現在のフィードフォワードモデルは数秒で3Dオブジェクトを生成できますが、その解像度はトレーニング時に必要な膨大な計算量によって制限されています。本論文では、テキストプロンプトや単一視点画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model(LGM)を提案します。私たちの主要な洞察は2つあります:1)3D表現:効率的でありながら強力な表現としてマルチビューガウシアンフィーチャーを提案し、これを融合して微分可能なレンダリングを実現します。2)3Dバックボーン:マルチビュー画像上で動作する高スループットのバックボーンとして非対称U-Netを提示し、これはマルチビューディフュージョンモデルを活用してテキストや単一視点画像入力から生成できます。大規模な実験により、本手法の高忠実度と効率性が実証されました。特に、5秒以内で3Dオブジェクトを生成する高速性を維持しつつ、トレーニング解像度を512に向上させることで、高解像度の3Dコンテンツ生成を実現しています。
English
3D content creation has achieved significant progress in terms of both
quality and speed. Although current feed-forward models can produce 3D objects
in seconds, their resolution is constrained by the intensive computation
required during training. In this paper, we introduce Large Multi-View Gaussian
Model (LGM), a novel framework designed to generate high-resolution 3D models
from text prompts or single-view images. Our key insights are two-fold: 1) 3D
Representation: We propose multi-view Gaussian features as an efficient yet
powerful representation, which can then be fused together for differentiable
rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput
backbone operating on multi-view images, which can be produced from text or
single-view image input by leveraging multi-view diffusion models. Extensive
experiments demonstrate the high fidelity and efficiency of our approach.
Notably, we maintain the fast speed to generate 3D objects within 5 seconds
while boosting the training resolution to 512, thereby achieving
high-resolution 3D content generation.