ChatPaper.aiChatPaper

Styl3R: Reconstrução 3D Estilizada Instantânea para Cenas e Estilos Arbitrários

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
Autores: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

Resumo

Estilizar cenas 3D instantaneamente, mantendo a consistência de múltiplas visões e fielmente assemelhando-se a uma imagem de estilo, continua sendo um desafio significativo. Os métodos atuais de estado da arte para estilização 3D geralmente envolvem uma otimização computacionalmente intensiva durante o teste para transferir características artísticas para uma representação 3D pré-treinada, frequentemente exigindo imagens de entrada densas e com pose. Em contraste, aproveitando os avanços recentes em modelos de reconstrução de avanço direto, demonstramos uma nova abordagem para alcançar a estilização 3D direta em menos de um segundo, utilizando imagens de cena esparsas e sem pose e uma imagem de estilo arbitrária. Para abordar o desacoplamento inerente entre reconstrução e estilização, introduzimos uma arquitetura ramificada que separa a modelagem de estrutura e o sombreamento de aparência, efetivamente prevenindo que a transferência estilística distorça a estrutura subjacente da cena 3D. Além disso, adaptamos uma perda de identidade para facilitar o pré-treinamento do nosso modelo de estilização através da tarefa de síntese de novas visões. Essa estratégia também permite que nosso modelo mantenha suas capacidades originais de reconstrução enquanto é ajustado para estilização. Avaliações abrangentes, utilizando tanto conjuntos de dados dentro do domínio quanto fora do domínio, demonstram que nossa abordagem produz conteúdo 3D estilizado de alta qualidade que alcança uma combinação superior de estilo e aparência da cena, ao mesmo tempo em que supera os métodos existentes em termos de consistência de múltiplas visões e eficiência.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.
PDF42May 29, 2025