Style-NeRF2NeRF: Trasferimento di Stile 3D da Immagini Multi-Vista Allineate nello Stile
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
Autori: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
Abstract
Proponiamo una pipeline semplice ma efficace per stilizzare una scena 3D, sfruttando la potenza dei modelli di diffusione di immagini 2D. Dato un modello NeRF ricostruito da un insieme di immagini multi-vista, eseguiamo il trasferimento di stile 3D raffinando il modello NeRF di origine utilizzando immagini stilizzate generate da un modello di diffusione immagine-immagine allineato allo stile. Dato un prompt di stile target, generiamo prima immagini multi-vista percettivamente simili sfruttando un modello di diffusione condizionato dalla profondità con un meccanismo di condivisione dell'attenzione. Successivamente, basandoci sulle immagini multi-vista stilizzate, proponiamo di guidare il processo di trasferimento di stile con la perdita di Wasserstein sezionata basata sulle mappe di caratteristiche estratte da un modello CNN pre-addestrato. La nostra pipeline è composta da passaggi disaccoppiati, consentendo agli utenti di testare varie idee di prompt e visualizzare in anteprima il risultato 3D stilizzato prima di procedere alla fase di fine-tuning del NeRF. Dimostriamo che il nostro metodo può trasferire diversi stili artistici a scene 3D del mondo reale con una qualità competitiva.
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.