ChatPaper.aiChatPaper

Styl3R: Reconstrucción 3D Estilizada Instantánea para Escenas y Estilos Arbitrarios

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
Autores: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

Resumen

Estilizar escenas 3D de manera instantánea mientras se mantiene la consistencia multi-vista y se asemeja fielmente a una imagen de estilo sigue siendo un desafío significativo. Los métodos actuales de estilización 3D más avanzados suelen involucrar una optimización computacionalmente intensiva en tiempo de prueba para transferir características artísticas a una representación 3D preentrenada, lo que a menudo requiere imágenes de entrada densas y posicionadas. En contraste, aprovechando los avances recientes en modelos de reconstrucción de avance directo, demostramos un enfoque novedoso para lograr la estilización 3D directa en menos de un segundo utilizando imágenes de escena de vistas escasas no posicionadas y una imagen de estilo arbitraria. Para abordar el desacoplamiento inherente entre la reconstrucción y la estilización, introducimos una arquitectura ramificada que separa el modelado de la estructura y el sombreado de la apariencia, evitando efectivamente que la transferencia estilística distorsione la estructura subyacente de la escena 3D. Además, adaptamos una pérdida de identidad para facilitar el preentrenamiento de nuestro modelo de estilización a través de la tarea de síntesis de nuevas vistas. Esta estrategia también permite que nuestro modelo conserve sus capacidades originales de reconstrucción mientras se ajusta para la estilización. Evaluaciones exhaustivas, utilizando conjuntos de datos tanto dentro como fuera del dominio, demuestran que nuestro enfoque produce contenido 3D estilizado de alta calidad que logra una combinación superior de estilo y apariencia de la escena, al mismo tiempo que supera a los métodos existentes en términos de consistencia multi-vista y eficiencia.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.

Summary

AI-Generated Summary

PDF42May 29, 2025