ChatPaper.aiChatPaper

Styl3R: Directe 3D-gestileerde reconstructie voor willekeurige scènes en stijlen

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
Auteurs: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

Samenvatting

Het direct styliseren van 3D-scènes terwijl multi-view consistentie behouden blijft en het stijlbeeld trouw wordt nagebootst, blijft een aanzienlijke uitdaging. De huidige state-of-the-art methoden voor 3D-stylisering vereisen doorgaans rekenintensieve optimalisatie tijdens de testfase om artistieke kenmerken over te dragen naar een vooraf getrainde 3D-representatie, wat vaak dichte geposeerde invoerbeelden vereist. In tegenstelling hiermee maken wij, door gebruik te maken van recente vooruitgang in feed-forward reconstructiemodellen, een nieuwe aanpak mogelijk om directe 3D-stylisering in minder dan een seconde te bereiken met ongeposeerde sparse-view scènebeelden en een willekeurig stijlbeeld. Om het inherente ontkoppelen tussen reconstructie en stylisering aan te pakken, introduceren we een vertakte architectuur die structuurmodellering en uiterlijk-shading scheidt, waardoor wordt voorkomen dat stijloverdracht de onderliggende 3D-scènestructuur vervormt. Bovendien passen we een identiteitsverlies aan om het voor te bereiden van ons stylisatiemodel via de taak van nieuwe weergavesynthese te vergemakkelijken. Deze strategie stelt ons model ook in staat om zijn oorspronkelijke reconstructiecapaciteiten te behouden terwijl het wordt afgestemd voor stylisering. Uitgebreide evaluaties, met behulp van zowel in-domein als out-of-domein datasets, tonen aan dat onze aanpak hoogwaardige gestileerde 3D-inhoud produceert die een superieure mix van stijl en scène-uiterlijk bereikt, terwijl het ook bestaande methoden overtreft op het gebied van multi-view consistentie en efficiëntie.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.
PDF42May 29, 2025