StyleMe3D: Estilização com Priores Desacoplados por Múltiplos Codificadores em Gaussianas 3D
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
April 21, 2025
Autores: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI
Resumo
O 3D Gaussian Splatting (3DGS) se destaca na reconstrução fotorrealista de cenas, mas enfrenta dificuldades em cenários estilizados (por exemplo, desenhos animados, jogos) devido a texturas fragmentadas, desalinhamento semântico e adaptabilidade limitada a estéticas abstratas. Propomos o StyleMe3D, um framework holístico para transferência de estilo em 3D GS que integra condicionamento de estilo multimodal, alinhamento semântico multinível e aprimoramento de qualidade perceptiva. Nossas principais percepções incluem: (1) otimizar apenas atributos RGB preserva a integridade geométrica durante a estilização; (2) desacoplar semânticas de baixo, médio e alto nível é crucial para uma transferência de estilo coerente; (3) escalabilidade em objetos isolados e cenas complexas é essencial para implantação prática. O StyleMe3D introduz quatro componentes novos: Dynamic Style Score Distillation (DSSD), que aproveita o espaço latente do Stable Diffusion para alinhamento semântico; Contrastive Style Descriptor (CSD) para transferência de textura localizada e consciente do conteúdo; Simultaneously Optimized Scale (SOS) para desacoplar detalhes de estilo e coerência estrutural; e 3D Gaussian Quality Assessment (3DG-QA), um prior estético diferenciável treinado em dados avaliados por humanos para suprimir artefatos e aprimorar a harmonia visual. Avaliado no conjunto de dados sintéticos NeRF (objetos) e tandt db (cenas), o StyleMe3D supera métodos state-of-the-art na preservação de detalhes geométricos (por exemplo, entalhes em esculturas) e na garantia de consistência estilística em cenas (por exemplo, iluminação coerente em paisagens), mantendo a renderização em tempo real. Este trabalho conecta o 3D GS fotorrealista e a estilização artística, abrindo caminho para aplicações em jogos, mundos virtuais e arte digital.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction
but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented
textures, semantic misalignment, and limited adaptability to abstract
aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer
that integrates multi-modal style conditioning, multi-level semantic alignment,
and perceptual quality enhancement. Our key insights include: (1) optimizing
only RGB attributes preserves geometric integrity during stylization; (2)
disentangling low-, medium-, and high-level semantics is critical for coherent
style transfer; (3) scalability across isolated objects and complex scenes is
essential for practical deployment. StyleMe3D introduces four novel components:
Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent
space for semantic alignment; Contrastive Style Descriptor (CSD) for localized,
content-aware texture transfer; Simultaneously Optimized Scale (SOS) to
decouple style details and structural coherence; and 3D Gaussian Quality
Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated
data to suppress artifacts and enhance visual harmony. Evaluated on NeRF
synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D
outperforms state-of-the-art methods in preserving geometric details (e.g.,
carvings on sculptures) and ensuring stylistic consistency across scenes (e.g.,
coherent lighting in landscapes), while maintaining real-time rendering. This
work bridges photorealistic 3D GS and artistic stylization, unlocking
applications in gaming, virtual worlds, and digital art.Summary
AI-Generated Summary