StyleMe3D: Stilizzazione con Prior Disaccoppiati tramite Multipli Encoder su Gaussiane 3D

Abstract

Il 3D Gaussian Splatting (3DGS) eccelle nella ricostruzione fotorealistica di scene, ma incontra difficoltà negli scenari stilizzati (ad esempio, cartoni animati, giochi) a causa di texture frammentate, disallineamento semantico e limitata adattabilità a estetiche astratte. Proponiamo StyleMe3D, un framework olistico per il trasferimento di stile nel 3D GS che integra il condizionamento multi-modale dello stile, l'allineamento semantico multi-livello e il miglioramento della qualità percettiva. Le nostre intuizioni chiave includono: (1) ottimizzare solo gli attributi RGB preserva l'integrità geometrica durante la stilizzazione; (2) separare la semantica a basso, medio e alto livello è cruciale per un trasferimento di stile coerente; (3) la scalabilità su oggetti isolati e scene complesse è essenziale per un impiego pratico. StyleMe3D introduce quattro componenti innovativi: Dynamic Style Score Distillation (DSSD), che sfrutta lo spazio latente di Stable Diffusion per l'allineamento semantico; Contrastive Style Descriptor (CSD) per il trasferimento di texture localizzato e consapevole del contenuto; Simultaneously Optimized Scale (SOS) per disaccoppiare i dettagli dello stile e la coerenza strutturale; e 3D Gaussian Quality Assessment (3DG-QA), un precedente estetico differenziabile addestrato su dati valutati da esseri umani per sopprimere artefatti e migliorare l'armonia visiva. Valutato sui dataset sintetici NeRF (oggetti) e tandt db (scene), StyleMe3D supera i metodi all'avanguardia nel preservare i dettagli geometrici (ad esempio, incisioni su sculture) e garantire la coerenza stilistica tra le scene (ad esempio, illuminazione coerente nei paesaggi), mantenendo il rendering in tempo reale. Questo lavoro colma il divario tra il 3D GS fotorealistico e la stilizzazione artistica, aprendo applicazioni nei giochi, nei mondi virtuali e nell'arte digitale.

English

3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

StyleMe3D: Stilizzazione con Prior Disaccoppiati tramite Multipli Encoder su Gaussiane 3D

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Abstract

Support