GaussianBlender: 분리된 잠재 공간을 활용한 3D 가우시안의 즉각적 스타일 변환
GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces
December 3, 2025
저자: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI
초록
3D 스타일화는 게임 개발, 가상 현실, 디지털 아트의 핵심 분야로, 다양한 에셋에 대한 수요가 빠르고 고품질의 조작을 지원하는 확장 가능한 방법론을 요구하고 있습니다. 기존 텍스트 기반 3D 스타일화 방법은 대체로 2D 이미지 편집기로부터 지식을 증류하는 방식으로, 에셋별로 시간 집약적인 최적화가 필요하며 현재 텍스트-이미지 모델의 한계로 인해 다중 뷰 불일치 문제를 보여줍니다. 이는 대규모 생산에 실용적이지 못하게 만듭니다. 본 논문에서는 추론 단계에서 즉각적으로 편집을 수행하는 선도적인 피드포워드 방식의 텍스트 주도 3D 스타일화 프레임워크인 GaussianBlender를 소개합니다. 우리의 방법은 공간적으로 그룹화된 3D 가우시안으로부터 기하학적 정보와 외관 정보를 제어적으로 공유하는 구조화되고 분리된 잠재 공간을 학습합니다. 이후 잠재 확산 모델이 이렇게 학습된 표현에 텍스트 조건부 편집을 적용합니다. 포괄적인 평가를 통해 GaussianBlender가 즉각적이고 고품질이며, 기하학적 특성을 보존하고 다중 뷰 일관성을 갖는 스타일화를 제공할 뿐만 아니라, 인스턴스별 시험 시간 최적화가 필요한 방법들을 능가함을 입증했습니다. 이는 실용적이고 대중화된 대규모 3D 스타일화의 길을 열어줍니다.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.