Styl3R: Ricostruzione 3D Stilizzata Istantanea per Scene e Stili Arbitrari
Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles
May 27, 2025
Autori: Peng Wang, Xiang Liu, Peidong Liu
cs.AI
Abstract
La stilizzazione istantanea di scene 3D mantenendo la coerenza multi-vista e rispecchiando fedelmente un'immagine di stile rimane una sfida significativa. I metodi attuali all'avanguardia per la stilizzazione 3D comportano tipicamente un'ottimizzazione computazionalmente intensa al momento del test per trasferire caratteristiche artistiche in una rappresentazione 3D pre-addestrata, spesso richiedendo immagini di input dense e posate. Al contrario, sfruttando i recenti progressi nei modelli di ricostruzione feed-forward, dimostriamo un approccio innovativo per ottenere una stilizzazione 3D diretta in meno di un secondo utilizzando immagini di scene sparse e non posate e un'immagine di stile arbitraria. Per affrontare il disaccoppiamento intrinseco tra ricostruzione e stilizzazione, introduciamo un'architettura ramificata che separa la modellazione della struttura e l'ombreggiatura dell'aspetto, prevenendo efficacemente la distorsione della struttura sottostante della scena 3D durante il trasferimento stilistico. Inoltre, adattiamo una perdita di identità per facilitare il pre-addestramento del nostro modello di stilizzazione attraverso il compito di sintesi di nuove viste. Questa strategia consente anche al nostro modello di mantenere le sue capacità originali di ricostruzione mentre viene perfezionato per la stilizzazione. Valutazioni complete, utilizzando sia dataset in dominio che fuori dominio, dimostrano che il nostro approccio produce contenuti 3D stilizzati di alta qualità che raggiungono una miscela superiore di stile e aspetto della scena, superando anche i metodi esistenti in termini di coerenza multi-vista ed efficienza.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and
faithfully resembling a style image remains a significant challenge. Current
state-of-the-art 3D stylization methods typically involve computationally
intensive test-time optimization to transfer artistic features into a
pretrained 3D representation, often requiring dense posed input images. In
contrast, leveraging recent advances in feed-forward reconstruction models, we
demonstrate a novel approach to achieve direct 3D stylization in less than a
second using unposed sparse-view scene images and an arbitrary style image. To
address the inherent decoupling between reconstruction and stylization, we
introduce a branched architecture that separates structure modeling and
appearance shading, effectively preventing stylistic transfer from distorting
the underlying 3D scene structure. Furthermore, we adapt an identity loss to
facilitate pre-training our stylization model through the novel view synthesis
task. This strategy also allows our model to retain its original reconstruction
capabilities while being fine-tuned for stylization. Comprehensive evaluations,
using both in-domain and out-of-domain datasets, demonstrate that our approach
produces high-quality stylized 3D content that achieve a superior blend of
style and scene appearance, while also outperforming existing methods in terms
of multi-view consistency and efficiency.