Style-NeRF2NeRF: スタイルアラインドされた多視点画像からの3Dスタイル転送
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
著者: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
要旨
我々は、2D画像拡散モデルの力を活用して3Dシーンをスタイライズするためのシンプルかつ効果的なパイプラインを提案します。多視点画像セットから再構築されたNeRFモデルを基に、スタイルアラインドされた画像間拡散モデルによって生成されたスタイライズ画像を用いて、ソースNeRFモデルを精緻化することで3Dスタイル転送を行います。ターゲットスタイルプロンプトが与えられると、まず、注意共有メカニズムを備えた深度条件付き拡散モデルを活用して知覚的に類似した多視点画像を生成します。次に、スタイライズされた多視点画像に基づいて、事前学習済みCNNモデルから抽出された特徴マップに基づくスライスドワッサースタイン損失を用いてスタイル転送プロセスをガイドすることを提案します。我々のパイプラインは分離されたステップで構成されており、ユーザーは様々なプロンプトアイデアを試し、NeRFの微調整段階に進む前にスタイライズされた3D結果をプレビューすることができます。本手法が、多様な芸術的スタイルを現実世界の3Dシーンに競争力のある品質で転送できることを実証します。
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.Summary
AI-Generated Summary