StyleMe3D: 다중 인코더를 활용한 3D 가우시안의 분리된 사전 지식을 통한 스타일화
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
April 21, 2025
저자: Cailin Zhuang, Yaoqi Hu, Xuanyang Zhang, Wei Cheng, Jiacheng Bao, Shengqi Liu, Yiying Yang, Xianfang Zeng, Gang Yu, Ming Li
cs.AI
초록
3D 가우시안 스플래팅(3DGS)은 사실적인 장면 재구성에서 뛰어난 성능을 보이지만, 만화나 게임과 같은 스타일화된 시나리오에서는 조각난 텍스처, 의미론적 불일치, 그리고 추상적인 미학에 대한 제한된 적응력으로 인해 어려움을 겪습니다. 우리는 이러한 문제를 해결하기 위해 다중 모달 스타일 조건화, 다중 수준 의미론적 정렬, 그리고 지각적 품질 향상을 통합한 StyleMe3D라는 3D GS 스타일 전이를 위한 종합적인 프레임워크를 제안합니다. 우리의 주요 통찰은 다음과 같습니다: (1) RGB 속성만 최적화하면 스타일화 과정에서 기하학적 무결성이 보존된다; (2) 저수준, 중수준, 고수준 의미론을 분리하는 것이 일관된 스타일 전이에 중요하다; (3) 고립된 객체와 복잡한 장면에 걸친 확장성이 실용적인 배포에 필수적이다. StyleMe3D는 네 가지 새로운 구성 요소를 도입합니다: Stable Diffusion의 잠재 공간을 활용한 의미론적 정렬을 위한 동적 스타일 점수 증류(DSSD); 지역화된, 콘텐츠 인식 텍스처 전이를 위한 대조적 스타일 디스크립터(CSD); 스타일 세부 사항과 구조적 일관성을 분리하기 위한 동시 최적화 스케일(SOS); 그리고 인간 평가 데이터로 훈련된 미분 가능한 미학적 사전인 3D 가우시안 품질 평가(3DG-QA)를 통해 아티팩트를 억제하고 시각적 조화를 강화합니다. NeRF 합성 데이터셋(객체)과 tandt db(장면) 데이터셋에서 평가한 결과, StyleMe3D는 기하학적 세부 사항(예: 조각상의 조각)을 보존하고 장면 전반에 걸친 스타일 일관성(예: 풍경에서의 일관된 조명)을 보장하면서 실시간 렌더링을 유지하는 데 있어 최신 방법들을 능가했습니다. 이 작업은 사실적인 3D GS와 예술적 스타일화를 연결하여 게임, 가상 세계, 디지털 아트 분야에서의 응용 가능성을 열어줍니다.
English
3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction
but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented
textures, semantic misalignment, and limited adaptability to abstract
aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer
that integrates multi-modal style conditioning, multi-level semantic alignment,
and perceptual quality enhancement. Our key insights include: (1) optimizing
only RGB attributes preserves geometric integrity during stylization; (2)
disentangling low-, medium-, and high-level semantics is critical for coherent
style transfer; (3) scalability across isolated objects and complex scenes is
essential for practical deployment. StyleMe3D introduces four novel components:
Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion's latent
space for semantic alignment; Contrastive Style Descriptor (CSD) for localized,
content-aware texture transfer; Simultaneously Optimized Scale (SOS) to
decouple style details and structural coherence; and 3D Gaussian Quality
Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated
data to suppress artifacts and enhance visual harmony. Evaluated on NeRF
synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D
outperforms state-of-the-art methods in preserving geometric details (e.g.,
carvings on sculptures) and ensuring stylistic consistency across scenes (e.g.,
coherent lighting in landscapes), while maintaining real-time rendering. This
work bridges photorealistic 3D GS and artistic stylization, unlocking
applications in gaming, virtual worlds, and digital art.Summary
AI-Generated Summary