ChatPaper.aiChatPaper

StyleMe3D : Stylisation avec des priors désentrelacés par des encodeurs multiples sur des Gaussiennes 3D

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

April 21, 2025
Auteurs: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI

Résumé

Le 3D Gaussian Splatting (3DGS) excelle dans la reconstruction photoréaliste de scènes mais peine avec les scénarios stylisés (par exemple, dessins animés, jeux) en raison de textures fragmentées, d'un désalignement sémantique et d'une adaptabilité limitée aux esthétiques abstraites. Nous proposons StyleMe3D, un cadre holistique pour le transfert de style en 3D GS qui intègre un conditionnement de style multimodal, un alignement sémantique multi-niveaux et une amélioration de la qualité perceptuelle. Nos principales idées incluent : (1) l'optimisation des seuls attributs RGB préserve l'intégrité géométrique pendant la stylisation ; (2) la dissociation des sémantiques de bas, moyen et haut niveau est cruciale pour un transfert de style cohérent ; (3) l'évolutivité à travers des objets isolés et des scènes complexes est essentielle pour un déploiement pratique. StyleMe3D introduit quatre composants novateurs : le Dynamic Style Score Distillation (DSSD), exploitant l'espace latent de Stable Diffusion pour l'alignement sémantique ; le Contrastive Style Descriptor (CSD) pour un transfert de texture localisé et conscient du contenu ; le Simultaneously Optimized Scale (SOS) pour découpler les détails de style et la cohérence structurelle ; et le 3D Gaussian Quality Assessment (3DG-QA), un critère esthétique différentiable entraîné sur des données évaluées par des humains pour supprimer les artefacts et améliorer l'harmonie visuelle. Évalué sur le jeu de données synthétique NeRF (objets) et le jeu de données tandt db (scènes), StyleMe3D surpasse les méthodes de pointe en préservant les détails géométriques (par exemple, les gravures sur les sculptures) et en assurant une cohérence stylistique à travers les scènes (par exemple, un éclairage cohérent dans les paysages), tout en maintenant un rendu en temps réel. Ce travail fait le lien entre le 3D GS photoréaliste et la stylisation artistique, ouvrant des applications dans les jeux, les mondes virtuels et l'art numérique.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

Summary

AI-Generated Summary

PDF232April 22, 2025