Style-NeRF2NeRF : Transfert de style 3D à partir d'images multivues alignées en style
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
Auteurs: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
Résumé
Nous proposons un pipeline simple mais efficace pour styliser une scène 3D, en exploitant la puissance des modèles de diffusion d'images 2D. Étant donné un modèle NeRF reconstruit à partir d'un ensemble d'images multi-vues, nous effectuons un transfert de style 3D en affinant le modèle NeRF source à l'aide d'images stylisées générées par un modèle de diffusion image-à-image aligné sur le style. Pour un prompt de style cible donné, nous générons d'abord des images multi-vues perceptuellement similaires en utilisant un modèle de diffusion conditionné par la profondeur avec un mécanisme de partage d'attention. Ensuite, basé sur les images multi-vues stylisées, nous proposons de guider le processus de transfert de style avec une perte de Wasserstein découpée basée sur les cartes de caractéristiques extraites d'un modèle CNN pré-entraîné. Notre pipeline se compose d'étapes découplées, permettant aux utilisateurs de tester diverses idées de prompts et de prévisualiser le résultat 3D stylisé avant de passer à l'étape de fine-tuning du NeRF. Nous démontrons que notre méthode peut transférer divers styles artistiques à des scènes 3D du monde réel avec une qualité compétitive.
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.Summary
AI-Generated Summary