ChatPaper.aiChatPaper

Styl3R: Sofortige 3D-stilisierte Rekonstruktion für beliebige Szenen und Stile

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
papers.authors: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

papers.abstract

Die sofortige Stilisierung von 3D-Szenen bei gleichzeitiger Wahrung der Multi-View-Konsistenz und treuen Ähnlichkeit zu einem Stilbild bleibt eine erhebliche Herausforderung. Aktuelle State-of-the-Art-Methoden zur 3D-Stilisierung beinhalten in der Regel rechenintensive Optimierungen zur Laufzeit, um künstlerische Merkmale in eine vortrainierte 3D-Darstellung zu übertragen, wobei häufig dichte, pose-kalibrierte Eingabebilder erforderlich sind. Im Gegensatz dazu nutzen wir die jüngsten Fortschritte in vorwärtsgerichteten Rekonstruktionsmodellen und präsentieren einen neuartigen Ansatz, der eine direkte 3D-Stilisierung in weniger als einer Sekunde ermöglicht, indem unkalibrierte, spärliche Ansichten von Szenenbildern und ein beliebiges Stilbild verwendet werden. Um die inhärente Entkopplung zwischen Rekonstruktion und Stilisierung zu adressieren, führen wir eine verzweigte Architektur ein, die die Strukturmodellierung und die Erscheinungsbeleuchtung trennt und dadurch effektiv verhindert, dass die stilistische Übertragung die zugrunde liegende 3D-Szenenstruktur verzerrt. Darüber hinaus passen wir einen Identitätsverlust an, um das Vortraining unseres Stilisierungsmodells durch die Aufgabe der neuartigen Ansichtssynthese zu erleichtern. Diese Strategie ermöglicht es unserem Modell auch, seine ursprünglichen Rekonstruktionsfähigkeiten beizubehalten, während es für die Stilisierung feinabgestimmt wird. Umfassende Bewertungen, die sowohl in-domain als auch out-of-domain Datensätze verwenden, zeigen, dass unser Ansatz hochwertige stilisierte 3D-Inhalte erzeugt, die eine überlegene Kombination aus Stil und Szenenaussehen erreichen, während er gleichzeitig bestehende Methoden in Bezug auf Multi-View-Konsistenz und Effizienz übertrifft.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.
PDF42May 29, 2025