2Dおよび3Dの事前情報を活用した双方向拡散によるテキストから3D生成
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors
December 7, 2023
著者: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI
要旨
3D生成研究の多くは、2D基盤モデルを3D空間にアッププロジェクションすることに焦点を当てており、2Dスコア蒸留サンプリング(SDS)損失の最小化やマルチビューデータセットでのファインチューニングによって実現されています。明示的な3D事前情報がない場合、これらの手法は幾何学的な異常やマルチビューの不整合を引き起こすことがあります。最近では、研究者たちが3Dデータセット上で直接学習することで3Dオブジェクトの真実性を向上させようと試みていますが、3Dデータセットのテクスチャ多様性が限られているため、低品質なテクスチャ生成が課題となっています。両アプローチの利点を活かすために、我々は双方向拡散(BiDiff)を提案します。これは、3D忠実度と2Dテクスチャの豊かさをそれぞれ保持するために、3Dと2Dの拡散プロセスを統合したフレームワークです。さらに、単純な組み合わせでは一貫性のない生成結果が得られる可能性があるため、新たな双方向ガイダンスによってそれらを橋渡しします。加えて、我々の手法は最適化ベースのモデルの初期化として使用でき、3Dモデルの品質と最適化の効率をさらに向上させ、生成プロセスを3.4時間から20分に短縮します。実験結果は、我々のモデルが高品質で多様かつスケーラブルな3D生成を実現することを示しています。プロジェクトウェブサイト: https://bidiff.github.io/。
English
Most 3D generation research focuses on up-projecting 2D foundation models
into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS)
loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these
methods often lead to geometric anomalies and multi-view inconsistency.
Recently, researchers have attempted to improve the genuineness of 3D objects
by directly training on 3D datasets, albeit at the cost of low-quality texture
generation due to the limited texture diversity in 3D datasets. To harness the
advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a
unified framework that incorporates both a 3D and a 2D diffusion process, to
preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a
simple combination may yield inconsistent generation results, we further bridge
them with novel bidirectional guidance. In addition, our method can be used as
an initialization of optimization-based models to further improve the quality
of 3D model and efficiency of optimization, reducing the generation process
from 3.4 hours to 20 minutes. Experimental results have shown that our model
achieves high-quality, diverse, and scalable 3D generation. Project website:
https://bidiff.github.io/.