MetaDreamer: 幾何学とテクスチャを分離した効率的なテキストから3D生成

MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture

November 16, 2023
著者: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI

要旨

3Dオブジェクト合成のための生成モデルは、2D拡散モデルから抽出された事前知識の組み込みにより、大きな進展を遂げてきました。しかしながら、既存の3D合成フレームワークにおいて、マルチビューの幾何学的不整合や生成速度の遅さといった課題が依然として存在します。これは主に2つの要因に起因しています。第一に、最適化における豊富な幾何学的な事前知識の欠如、第二に、従来の3D生成手法における形状とテクスチャの絡み合い問題です。これに対応するため、我々は2段階の最適化アプローチであるMetaDreammerを提案します。この手法は、豊富な2Dおよび3Dの事前知識を活用します。第1段階では、3Dオブジェクトのマルチビュー一貫性と精度を確保するために、幾何学的表現の最適化に重点を置きます。第2段階では、形状の微調整とテクスチャの最適化に集中し、より洗練された3Dオブジェクトを実現します。2段階でそれぞれ2Dと3Dの事前知識を活用することで、形状とテクスチャの相互依存関係を効果的に緩和します。MetaDreammerは各段階で明確な最適化目標を設定し、3D生成プロセスにおける大幅な時間節約を実現します。結果として、MetaDreammerはテキストプロンプトに基づいて20分以内に高品質な3Dオブジェクトを生成可能であり、我々の知る限り最も効率的なテキストから3Dへの生成手法です。さらに、プロセスに画像制御を導入することで、3D生成の制御性を向上させています。広範な実験結果により、本手法が非常に効率的であるだけでなく、現在の最先端の3D生成技術と同等の品質レベルを達成していることが確認されています。
English
Generative models for 3D object synthesis have seen significant advancements with the incorporation of prior knowledge distilled from 2D diffusion models. Nevertheless, challenges persist in the form of multi-view geometric inconsistencies and slow generation speeds within the existing 3D synthesis frameworks. This can be attributed to two factors: firstly, the deficiency of abundant geometric a priori knowledge in optimization, and secondly, the entanglement issue between geometry and texture in conventional 3D generation methods.In response, we introduce MetaDreammer, a two-stage optimization approach that leverages rich 2D and 3D prior knowledge. In the first stage, our emphasis is on optimizing the geometric representation to ensure multi-view consistency and accuracy of 3D objects. In the second stage, we concentrate on fine-tuning the geometry and optimizing the texture, thereby achieving a more refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages, respectively, we effectively mitigate the interdependence between geometry and texture. MetaDreamer establishes clear optimization objectives for each stage, resulting in significant time savings in the 3D generation process. Ultimately, MetaDreamer can generate high-quality 3D objects based on textual prompts within 20 minutes, and to the best of our knowledge, it is the most efficient text-to-3D generation method. Furthermore, we introduce image control into the process, enhancing the controllability of 3D generation. Extensive empirical evidence confirms that our method is not only highly efficient but also achieves a quality level that is at the forefront of current state-of-the-art 3D generation techniques.
PDF181December 15, 2024