StyleMe3D: Stilisierung mit entflochtenen Prioren durch multiple Encoder auf 3D-Gaußschen
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
April 21, 2025
Autoren: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI
Zusammenfassung
3D Gaussian Splatting (3DGS) zeichnet sich durch fotorealistische Szenenrekonstruktion aus,
hat jedoch Schwierigkeiten mit stilisierten Szenarien (z. B. Cartoons, Spiele) aufgrund von fragmentierten
Texturen, semantischer Fehlausrichtung und begrenzter Anpassungsfähigkeit an abstrakte
Ästhetik. Wir stellen StyleMe3D vor, ein ganzheitliches Framework für den 3D-GS-Stiltransfer,
das multimodale Stilkonditionierung, mehrstufige semantische Ausrichtung und
wahrnehmungsbasierte Qualitätsverbesserung integriert. Unsere zentralen Erkenntnisse umfassen: (1) Die Optimierung
nur der RGB-Attribute bewahrt die geometrische Integrität während der Stilisierung; (2)
Die Entflechtung von niedrig-, mittel- und hochrangiger Semantik ist entscheidend für einen kohärenten
Stiltransfer; (3) Skalierbarkeit über isolierte Objekte und komplexe Szenen hinweg ist
essentiell für den praktischen Einsatz. StyleMe3D führt vier neuartige Komponenten ein:
Dynamic Style Score Distillation (DSSD), das den latenten Raum von Stable Diffusion für die semantische
Ausrichtung nutzt; Contrastive Style Descriptor (CSD) für lokalisierte, inhaltsbewusste Texturübertragung;
Simultaneously Optimized Scale (SOS) zur Entkopplung von Stildetails und struktureller Kohärenz;
sowie 3D Gaussian Quality Assessment (3DG-QA), ein differenzierbares ästhetisches Prior, das auf von Menschen bewerteten
Daten trainiert wurde, um Artefakte zu unterdrücken und visuelle Harmonie zu verbessern. Bewertet auf dem NeRF-
Synthetic-Dataset (Objekte) und dem tandt db (Szenen) Datensatz, übertrifft StyleMe3D
state-of-the-art Methoden in der Bewahrung geometrischer Details (z. B.
Gravuren auf Skulpturen) und der Sicherstellung stilistischer Konsistenz über Szenen hinweg (z. B.
kohärente Beleuchtung in Landschaften), während Echtzeit-Rendering beibehalten wird. Diese
Arbeit verbindet fotorealistisches 3D-GS mit künstlerischer Stilisierung und erschließt
Anwendungen in Gaming, virtuellen Welten und digitaler Kunst.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction
but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented
textures, semantic misalignment, and limited adaptability to abstract
aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer
that integrates multi-modal style conditioning, multi-level semantic alignment,
and perceptual quality enhancement. Our key insights include: (1) optimizing
only RGB attributes preserves geometric integrity during stylization; (2)
disentangling low-, medium-, and high-level semantics is critical for coherent
style transfer; (3) scalability across isolated objects and complex scenes is
essential for practical deployment. StyleMe3D introduces four novel components:
Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent
space for semantic alignment; Contrastive Style Descriptor (CSD) for localized,
content-aware texture transfer; Simultaneously Optimized Scale (SOS) to
decouple style details and structural coherence; and 3D Gaussian Quality
Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated
data to suppress artifacts and enhance visual harmony. Evaluated on NeRF
synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D
outperforms state-of-the-art methods in preserving geometric details (e.g.,
carvings on sculptures) and ensuring stylistic consistency across scenes (e.g.,
coherent lighting in landscapes), while maintaining real-time rendering. This
work bridges photorealistic 3D GS and artistic stylization, unlocking
applications in gaming, virtual worlds, and digital art.Summary
AI-Generated Summary