LATTE3D: 大規模償却型テキストから高品質3D合成
LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
March 22, 2024
著者: Kevin Xie, Jonathan Lorraine, Tianshi Cao, Jun Gao, James Lucas, Antonio Torralba, Sanja Fidler, Xiaohui Zeng
cs.AI
要旨
最近のテキストから3D生成へのアプローチは、印象的な3D結果を生み出しますが、プロンプトごとに最大1時間かかる時間のかかる最適化を必要とします。ATT3Dのような償却法は、複数のプロンプトを同時に最適化して効率を向上させ、高速なテキストから3D合成を可能にします。しかし、高周波のジオメトリやテクスチャの詳細を捉えることができず、大規模なプロンプトセットに拡張するのが難しいため、一般化が不十分です。私たちはLATTE3Dを導入し、これらの制限を克服して、大幅に大規模なプロンプトセットにおいて高速で高品質な生成を実現します。私たちの手法の鍵は、1)スケーラブルなアーキテクチャを構築すること、2)3D対応の拡散事前分布、形状正則化、モデル初期化を通じて最適化中に3Dデータを活用し、多様で複雑なトレーニングプロンプトに対するロバスト性を達成することです。LATTE3Dは、ニューラルフィールドとテクスチャ付きサーフェス生成の両方を償却し、単一のフォワードパスで高度に詳細なテクスチャ付きメッシュを生成します。LATTE3Dは400ミリ秒で3Dオブジェクトを生成し、高速なテスト時最適化でさらに強化することができます。
English
Recent text-to-3D generation approaches produce impressive 3D results but
require time-consuming optimization that can take up to an hour per prompt.
Amortized methods like ATT3D optimize multiple prompts simultaneously to
improve efficiency, enabling fast text-to-3D synthesis. However, they cannot
capture high-frequency geometry and texture details and struggle to scale to
large prompt sets, so they generalize poorly. We introduce LATTE3D, addressing
these limitations to achieve fast, high-quality generation on a significantly
larger prompt set. Key to our method is 1) building a scalable architecture and
2) leveraging 3D data during optimization through 3D-aware diffusion priors,
shape regularization, and model initialization to achieve robustness to diverse
and complex training prompts. LATTE3D amortizes both neural field and textured
surface generation to produce highly detailed textured meshes in a single
forward pass. LATTE3D generates 3D objects in 400ms, and can be further
enhanced with fast test-time optimization.Summary
AI-Generated Summary