ChatPaper.aiChatPaper

StyleMe3D: Стилизация с разделенными априорными знаниями с использованием множества энкодеров на 3D-гаусссианах

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

April 21, 2025
Авторы: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI

Аннотация

3D Gaussian Splatting (3DGS) демонстрирует превосходство в фотореалистичной реконструкции сцен, но сталкивается с трудностями при работе со стилизованными сценариями (например, мультфильмы, игры) из-за фрагментированных текстур, семантического рассогласования и ограниченной адаптируемости к абстрактной эстетике. Мы предлагаем StyleMe3D — целостный фреймворк для переноса стиля в 3D GS, который интегрирует мультимодальное стилевое кондиционирование, многоуровневое семантическое выравнивание и улучшение перцептивного качества. Наши ключевые идеи включают: (1) оптимизация только RGB-атрибутов сохраняет геометрическую целостность в процессе стилизации; (2) разделение низко-, средне- и высокоуровневой семантики критически важно для согласованного переноса стиля; (3) масштабируемость для изолированных объектов и сложных сцен необходима для практического применения. StyleMe3D вводит четыре новых компонента: Dynamic Style Score Distillation (DSSD), использующий латентное пространство Stable Diffusion для семантического выравнивания; Contrastive Style Descriptor (CSD) для локализованного, контентно-зависимого переноса текстур; Simultaneously Optimized Scale (SOS) для разделения стилевых деталей и структурной согласованности; и 3D Gaussian Quality Assessment (3DG-QA) — дифференцируемый эстетический приоритет, обученный на данных, оцененных людьми, для подавления артефактов и улучшения визуальной гармонии. Протестированный на синтетических данных NeRF (объекты) и tandt db (сцены), StyleMe3D превосходит современные методы в сохранении геометрических деталей (например, резьбы на скульптурах) и обеспечении стилистической согласованности в сценах (например, согласованное освещение в пейзажах), сохраняя при этом рендеринг в реальном времени. Эта работа объединяет фотореалистичный 3D GS и художественную стилизацию, открывая возможности для применения в играх, виртуальных мирах и цифровом искусстве.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

Summary

AI-Generated Summary

PDF232April 22, 2025