Style-NeRF2NeRF: Transferencia de Estilo 3D a partir de Imágenes Multivista Alineadas en Estilo
Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
June 19, 2024
Autores: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI
Resumen
Proponemos una pipeline simple pero efectiva para estilizar una escena 3D, aprovechando el poder de los modelos de difusión de imágenes 2D. Dado un modelo NeRF reconstruido a partir de un conjunto de imágenes multivista, realizamos la transferencia de estilo 3D refinando el modelo NeRF original utilizando imágenes estilizadas generadas por un modelo de difusión imagen-a-imagen alineado con el estilo. Dado un prompt de estilo objetivo, primero generamos imágenes multivista perceptualmente similares utilizando un modelo de difusión condicionado por profundidad con un mecanismo de compartición de atención. Luego, basándonos en las imágenes multivista estilizadas, proponemos guiar el proceso de transferencia de estilo con la pérdida de Wasserstein segmentada basada en los mapas de características extraídos de un modelo CNN preentrenado. Nuestra pipeline consta de pasos desacoplados, permitiendo a los usuarios probar diversas ideas de prompts y previsualizar el resultado 3D estilizado antes de proceder a la etapa de ajuste fino del NeRF. Demostramos que nuestro método puede transferir diversos estilos artísticos a escenas 3D del mundo real con una calidad competitiva.
English
We propose a simple yet effective pipeline for stylizing a 3D scene,
harnessing the power of 2D image diffusion models. Given a NeRF model
reconstructed from a set of multi-view images, we perform 3D style transfer by
refining the source NeRF model using stylized images generated by a
style-aligned image-to-image diffusion model. Given a target style prompt, we
first generate perceptually similar multi-view images by leveraging a
depth-conditioned diffusion model with an attention-sharing mechanism. Next,
based on the stylized multi-view images, we propose to guide the style transfer
process with the sliced Wasserstein loss based on the feature maps extracted
from a pre-trained CNN model. Our pipeline consists of decoupled steps,
allowing users to test various prompt ideas and preview the stylized 3D result
before proceeding to the NeRF fine-tuning stage. We demonstrate that our method
can transfer diverse artistic styles to real-world 3D scenes with competitive
quality.Summary
AI-Generated Summary