Style-NeRF2NeRF: 3D-stijloverdracht vanuit stijlgeharmoniseerde multi-view afbeeldingen
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
Auteurs: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
Samenvatting
We stellen een eenvoudige maar effectieve pipeline voor voor het styliseren van een 3D-scène, waarbij we gebruikmaken van de kracht van 2D-beelddiffusiemodellen. Gegeven een NeRF-model dat is gereconstrueerd uit een set multi-view beelden, voeren we 3D-stijloverdracht uit door het bron-NeRF-model te verfijnen met behulp van gestileerde beelden die zijn gegenereerd door een stijlgealigneerd beeld-naar-beeld diffusiemodel. Gegeven een doelstijlprompt, genereren we eerst perceptueel vergelijkbare multi-view beelden door gebruik te maken van een dieptegeconditioneerd diffusiemodel met een aandacht-delen mechanisme. Vervolgens stellen we voor om, gebaseerd op de gestileerde multi-view beelden, het stijloverdrachtproces te begeleiden met het gesneden Wasserstein-verlies op basis van de kenmerkkaarten die zijn geëxtraheerd uit een vooraf getraind CNN-model. Onze pipeline bestaat uit ontkoppelde stappen, waardoor gebruikers verschillende promptideeën kunnen testen en het gestileerde 3D-resultaat kunnen bekijken voordat ze doorgaan naar de NeRF-finetuningfase. We demonstreren dat onze methode diverse artistieke stijlen kan overbrengen naar realistische 3D-scènes met concurrerende kwaliteit.
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.