ChatPaper.aiChatPaper

StyleMe3D: 複数エンコーダによる3Dガウシアン上の分離された事前分布を用いたスタイライゼーション

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

April 21, 2025
著者: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI

要旨

3Dガウシアンスプラッティング(3DGS)は、フォトリアルなシーン再構築において優れているものの、断片化したテクスチャ、意味的な不整合、抽象的な美学への適応性の低さから、スタイライズされたシナリオ(例:カートゥーン、ゲーム)では課題を抱えています。本研究では、3D GSスタイル転送のための包括的フレームワークであるStyleMe3Dを提案します。このフレームワークは、マルチモーダルなスタイル条件付け、マルチレベルな意味的整合性、知覚的品質向上を統合しています。主な洞察は以下の通りです:(1) RGB属性のみを最適化することで、スタイライゼーション中の幾何学的整合性が保たれる、(2) 低レベル、中レベル、高レベルの意味を分離することが、一貫したスタイル転送に重要である、(3) 孤立したオブジェクトと複雑なシーンでのスケーラビリティが実用的な展開に不可欠である。StyleMe3Dは、4つの新規コンポーネントを導入します:Stable Diffusionの潜在空間を活用した意味的整合性のためのDynamic Style Score Distillation(DSSD)、局所的でコンテンツを意識したテクスチャ転送のためのContrastive Style Descriptor(CSD)、スタイルの詳細と構造的整合性を分離するためのSimultaneously Optimized Scale(SOS)、および、人間による評価データに基づいて訓練された微分可能な美的事前分布である3D Gaussian Quality Assessment(3DG-QA)です。NeRF合成データセット(オブジェクト)とtandt db(シーン)データセットで評価した結果、StyleMe3Dは、幾何学的な詳細(例:彫刻の彫り込み)を保持し、シーン全体でのスタイルの一貫性(例:風景における一貫した照明)を確保する点で、最先端の手法を上回り、リアルタイムレンダリングを維持しました。本研究成果は、フォトリアルな3D GSと芸術的なスタイライゼーションを橋渡しし、ゲーム、仮想世界、デジタルアートにおける応用を可能にします。
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

Summary

AI-Generated Summary

PDF232April 22, 2025