StyleMe3D: Estilización con Priors Desenredados mediante Múltiples Codificadores sobre Gaussianas 3D
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
April 21, 2025
Autores: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI
Resumen
El método 3D Gaussian Splatting (3DGS) destaca en la reconstrucción fotorrealista de escenas, pero enfrenta dificultades en escenarios estilizados (por ejemplo, caricaturas, videojuegos) debido a texturas fragmentadas, desalineación semántica y una adaptabilidad limitada a estéticas abstractas. Proponemos StyleMe3D, un marco holístico para la transferencia de estilo en 3D GS que integra condicionamiento de estilo multimodal, alineación semántica multinivel y mejora de la calidad perceptual. Nuestras ideas clave incluyen: (1) optimizar solo los atributos RGB preserva la integridad geométrica durante la estilización; (2) desentrelazar semánticas de bajo, medio y alto nivel es crucial para una transferencia de estilo coherente; (3) la escalabilidad en objetos aislados y escenas complejas es esencial para su implementación práctica. StyleMe3D introduce cuatro componentes novedosos: Distilación Dinámica de Puntuación de Estilo (DSSD), que aprovecha el espacio latente de Stable Diffusion para la alineación semántica; Descriptor de Estilo Contrastivo (CSD) para la transferencia de texturas localizada y consciente del contenido; Escala Optimizada Simultáneamente (SOS) para desacoplar detalles de estilo y coherencia estructural; y Evaluación de Calidad de Gaussianos 3D (3DG-QA), un prior estético diferenciable entrenado con datos calificados por humanos para suprimir artefactos y mejorar la armonía visual. Evaluado en el conjunto de datos sintéticos NeRF (objetos) y tandt db (escenas), StyleMe3D supera a los métodos más avanzados en la preservación de detalles geométricos (por ejemplo, tallados en esculturas) y la consistencia estilística en escenas (por ejemplo, iluminación coherente en paisajes), manteniendo la renderización en tiempo real. Este trabajo conecta el 3D GS fotorrealista con la estilización artística, abriendo aplicaciones en videojuegos, mundos virtuales y arte digital.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction
but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented
textures, semantic misalignment, and limited adaptability to abstract
aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer
that integrates multi-modal style conditioning, multi-level semantic alignment,
and perceptual quality enhancement. Our key insights include: (1) optimizing
only RGB attributes preserves geometric integrity during stylization; (2)
disentangling low-, medium-, and high-level semantics is critical for coherent
style transfer; (3) scalability across isolated objects and complex scenes is
essential for practical deployment. StyleMe3D introduces four novel components:
Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent
space for semantic alignment; Contrastive Style Descriptor (CSD) for localized,
content-aware texture transfer; Simultaneously Optimized Scale (SOS) to
decouple style details and structural coherence; and 3D Gaussian Quality
Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated
data to suppress artifacts and enhance visual harmony. Evaluated on NeRF
synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D
outperforms state-of-the-art methods in preserving geometric details (e.g.,
carvings on sculptures) and ensuring stylistic consistency across scenes (e.g.,
coherent lighting in landscapes), while maintaining real-time rendering. This
work bridges photorealistic 3D GS and artistic stylization, unlocking
applications in gaming, virtual worlds, and digital art.Summary
AI-Generated Summary