VP3D: テキストから3D生成のための2D視覚プロンプトの解放
VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation
March 25, 2024
著者: Yang Chen, Yingwei Pan, Haibo Yang, Ting Yao, Tao Mei
cs.AI
要旨
テキストから3D生成における最近の革新として、スコア蒸留サンプリング(SDS)が注目されています。SDSは、2D拡散モデルから直接事前知識を蒸留することで、暗黙的な3Dモデル(NeRF)のゼロショット学習を可能にします。しかし、現在のSDSベースのモデルは複雑なテキストプロンプトに対応するのに苦戦しており、非現実的なテクスチャや視点間の不整合を伴う歪んだ3Dモデルを生成することが一般的です。本研究では、2Dビジュアルプロンプトの視覚的外観知識を明示的に活用してテキストから3D生成を強化する、新しいビジュアルプロンプト誘導型テキストから3D拡散モデル(VP3D)を提案します。VP3Dは、テキストプロンプトだけでSDSを監督するのではなく、まず2D拡散モデルを利用して入力テキストから高品質な画像を生成し、それをビジュアルプロンプトとしてSDS最適化を強化します。同時に、SDS最適化に追加の微分可能な報酬関数を組み合わせ、3Dモデルのレンダリング画像が2Dビジュアルプロンプトと視覚的に整合し、テキストプロンプトと意味的に一致するよう促します。大規模な実験を通じて、VP3Dの2Dビジュアルプロンプトが3Dモデルの視覚的外観の学習を大幅に容易にし、より詳細なテクスチャを伴う高い視覚的忠実度を実現することを示します。また、自己生成するビジュアルプロンプトを所与の参照画像に置き換えることで、VP3Dがスタイライズされたテキストから3D生成という新たなタスクを引き起こすことができる点も魅力的です。プロジェクトページはhttps://vp3d-cvpr24.github.ioで公開されています。
English
Recent innovations on text-to-3D generation have featured Score Distillation
Sampling (SDS), which enables the zero-shot learning of implicit 3D models
(NeRF) by directly distilling prior knowledge from 2D diffusion models.
However, current SDS-based models still struggle with intricate text prompts
and commonly result in distorted 3D models with unrealistic textures or
cross-view inconsistency issues. In this work, we introduce a novel Visual
Prompt-guided text-to-3D diffusion model (VP3D) that explicitly unleashes the
visual appearance knowledge in 2D visual prompt to boost text-to-3D generation.
Instead of solely supervising SDS with text prompt, VP3D first capitalizes on
2D diffusion model to generate a high-quality image from input text, which
subsequently acts as visual prompt to strengthen SDS optimization with explicit
visual appearance. Meanwhile, we couple the SDS optimization with additional
differentiable reward function that encourages rendering images of 3D models to
better visually align with 2D visual prompt and semantically match with text
prompt. Through extensive experiments, we show that the 2D Visual Prompt in our
VP3D significantly eases the learning of visual appearance of 3D models and
thus leads to higher visual fidelity with more detailed textures. It is also
appealing in view that when replacing the self-generating visual prompt with a
given reference image, VP3D is able to trigger a new task of stylized
text-to-3D generation. Our project page is available at
https://vp3d-cvpr24.github.io.Summary
AI-Generated Summary