Style-NeRF2NeRF: 스타일 정렬된 다중 뷰 이미지에서의 3D 스타일 전이
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
저자: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
초록
우리는 2D 이미지 확산 모델의 힘을 활용하여 3D 장면을 스타일화하는 간단하지만 효과적인 파이프라인을 제안합니다. 다중 뷰 이미지 세트로부터 재구성된 NeRF 모델이 주어지면, 스타일 정렬된 이미지-이미지 확산 모델로 생성된 스타일화된 이미지를 사용하여 소스 NeRF 모델을 개선함으로써 3D 스타일 전이를 수행합니다. 목표 스타일 프롬프트가 주어지면, 먼저 주의 공유 메커니즘을 갖춘 깊이 조건부 확산 모델을 활용하여 지각적으로 유사한 다중 뷰 이미지를 생성합니다. 다음, 스타일화된 다중 뷰 이미지를 기반으로, 사전 훈련된 CNN 모델에서 추출한 특징 맵을 기반으로 한 슬라이스드 와서스테인 손실을 사용하여 스타일 전이 과정을 안내하는 방법을 제안합니다. 우리의 파이프라인은 분리된 단계로 구성되어 있어, 사용자가 다양한 프롬프트 아이디어를 테스트하고 NeRF 미세 조정 단계로 진행하기 전에 스타일화된 3D 결과를 미리 볼 수 있도록 합니다. 우리의 방법이 다양한 예술적 스타일을 실제 3D 장면에 경쟁력 있는 품질로 전이할 수 있음을 보여줍니다.
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.Summary
AI-Generated Summary