ChatPaper.aiChatPaper

Estilo-NeRF2NeRF: Transferência de Estilo 3D a partir de Imagens Multivisão Alinhadas por Estilo

Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

June 19, 2024
Autores: Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada
cs.AI

Resumo

Propomos um pipeline simples, porém eficaz, para estilizar uma cena 3D, aproveitando o poder dos modelos de difusão de imagem 2D. Dado um modelo NeRF reconstruído a partir de um conjunto de imagens de várias vistas, realizamos a transferência de estilo 3D refinando o modelo NeRF de origem usando imagens estilizadas geradas por um modelo de difusão de imagem para imagem alinhado ao estilo. Dado um prompt de estilo alvo, primeiro geramos imagens de várias vistas perceptualmente semelhantes aproveitando um modelo de difusão condicionado pela profundidade com um mecanismo de compartilhamento de atenção. Em seguida, com base nas imagens de várias vistas estilizadas, propomos guiar o processo de transferência de estilo com a perda de Wasserstein fatiada com base nos mapas de características extraídos de um modelo CNN pré-treinado. Nosso pipeline consiste em etapas desacopladas, permitindo aos usuários testar várias ideias de prompt e visualizar o resultado 3D estilizado antes de prosseguir para a etapa de ajuste fino do NeRF. Demonstramos que nosso método pode transferir diversos estilos artísticos para cenas 3D do mundo real com qualidade competitiva.
English
We propose a simple yet effective pipeline for stylizing a 3D scene, harnessing the power of 2D image diffusion models. Given a NeRF model reconstructed from a set of multi-view images, we perform 3D style transfer by refining the source NeRF model using stylized images generated by a style-aligned image-to-image diffusion model. Given a target style prompt, we first generate perceptually similar multi-view images by leveraging a depth-conditioned diffusion model with an attention-sharing mechanism. Next, based on the stylized multi-view images, we propose to guide the style transfer process with the sliced Wasserstein loss based on the feature maps extracted from a pre-trained CNN model. Our pipeline consists of decoupled steps, allowing users to test various prompt ideas and preview the stylized 3D result before proceeding to the NeRF fine-tuning stage. We demonstrate that our method can transfer diverse artistic styles to real-world 3D scenes with competitive quality.
PDF51November 29, 2024