ChatPaper.aiChatPaper

Style-NeRF2NeRF: Trasferimento di Stile 3D da Immagini Multi-Vista Allineate nello Stile

Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

June 19, 2024
Autori: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI

Abstract

Proponiamo una pipeline semplice ma efficace per stilizzare una scena 3D, sfruttando la potenza dei modelli di diffusione di immagini 2D. Dato un modello NeRF ricostruito da un insieme di immagini multi-vista, eseguiamo il trasferimento di stile 3D raffinando il modello NeRF di origine utilizzando immagini stilizzate generate da un modello di diffusione immagine-immagine allineato allo stile. Dato un prompt di stile target, generiamo prima immagini multi-vista percettivamente simili sfruttando un modello di diffusione condizionato dalla profondità con un meccanismo di condivisione dell'attenzione. Successivamente, basandoci sulle immagini multi-vista stilizzate, proponiamo di guidare il processo di trasferimento di stile con la perdita di Wasserstein sezionata basata sulle mappe di caratteristiche estratte da un modello CNN pre-addestrato. La nostra pipeline è composta da passaggi disaccoppiati, consentendo agli utenti di testare varie idee di prompt e visualizzare in anteprima il risultato 3D stilizzato prima di procedere alla fase di fine-tuning del NeRF. Dimostriamo che il nostro metodo può trasferire diversi stili artistici a scene 3D del mondo reale con una qualità competitiva.
English
We propose a simple yet effective pipeline for stylizing a 3D scene, harnessing the power of 2D image diffusion models. Given a NeRF model reconstructed from a set of multi-view images, we perform 3D style transfer by refining the source NeRF model using stylized images generated by a style-aligned image-to-image diffusion model. Given a target style prompt, we first generate perceptually similar multi-view images by leveraging a depth-conditioned diffusion model with an attention-sharing mechanism. Next, based on the stylized multi-view images, we propose to guide the style transfer process with the sliced Wasserstein loss based on the feature maps extracted from a pre-trained CNN model. Our pipeline consists of decoupled steps, allowing users to test various prompt ideas and preview the stylized 3D result before proceeding to the NeRF fine-tuning stage. We demonstrate that our method can transfer diverse artistic styles to real-world 3D scenes with competitive quality.
PDF51November 29, 2024