ChatPaper.aiChatPaper

Styl3R : Reconstruction 3D stylisée instantanée pour scènes et styles arbitraires

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
Auteurs: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

Résumé

La stylisation instantanée de scènes 3D tout en préservant la cohérence multi-vues et en ressemblant fidèlement à une image de style reste un défi majeur. Les méthodes actuelles de pointe pour la stylisation 3D impliquent généralement une optimisation intensive au moment du test pour transférer des caractéristiques artistiques dans une représentation 3D pré-entraînée, nécessitant souvent des images d'entrée denses et posées. En revanche, en tirant parti des avancées récentes dans les modèles de reconstruction en flux direct, nous démontrons une nouvelle approche pour réaliser une stylisation 3D directe en moins d'une seconde à l'aide d'images de scène non posées à vue éparse et d'une image de style arbitraire. Pour résoudre le découplage inhérent entre la reconstruction et la stylisation, nous introduisons une architecture ramifiée qui sépare la modélisation de la structure et l'ombrage de l'apparence, empêchant efficacement le transfert stylistique de déformer la structure sous-jacente de la scène 3D. De plus, nous adaptons une fonction de perte d'identité pour faciliter le pré-entraînement de notre modèle de stylisation à travers la tâche de synthèse de nouvelles vues. Cette stratégie permet également à notre modèle de conserver ses capacités de reconstruction originales tout en étant affiné pour la stylisation. Des évaluations approfondies, utilisant à la fois des ensembles de données intra-domaines et extra-domaines, démontrent que notre approche produit un contenu 3D stylisé de haute qualité qui atteint un mélange supérieur de style et d'apparence de scène, tout en surpassant les méthodes existantes en termes de cohérence multi-vues et d'efficacité.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.

Summary

AI-Generated Summary

PDF42May 29, 2025