ChatPaper.aiChatPaper

Dual3D: デュアルモードマルチビュー潜在拡散による効率的で一貫性のあるテキストから3D生成

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
著者: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

要旨

本論文では、テキストから高品質な3Dアセットをわずか1分で生成する新しいテキスト・トゥ・3D生成フレームワーク「Dual3D」を提案します。その中核となるのは、デュアルモードのマルチビュー潜在拡散モデルです。ノイズの多いマルチビュー潜在表現が与えられると、2Dモードでは単一の潜在ノイズ除去ネットワークを用いて効率的にノイズを除去し、3Dモードでは一貫性のあるレンダリングベースのノイズ除去のためにトライプレーン神経表面を生成します。両モードのほとんどのモジュールは、事前に学習されたテキスト・トゥ・イメージ潜在拡散モデルから調整されており、ゼロから学習する高コストを回避しています。推論時の高いレンダリングコストを克服するために、3Dモードでのノイズ除去ステップを1/10に抑えるデュアルモード切り替え推論戦略を提案し、品質を損なうことなくわずか10秒で3Dアセットを生成することに成功しました。3Dアセットのテクスチャは、短時間で効率的にテクスチャを洗練するプロセスによってさらに向上させることができます。広範な実験により、本手法が生成時間を大幅に短縮しながら最先端の性能を発揮することが実証されました。プロジェクトページはhttps://dual3d.github.ioで公開されています。
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io

Summary

AI-Generated Summary

PDF200December 15, 2024