ChatPaper.aiChatPaper

CLIPGaussian: 가우시안 스플래팅 기반의 범용적 및 다중모달 스타일 전이

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28, 2025
저자: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI

초록

가우시안 스플래팅(Gaussian Splatting, GS)은 최근 2D 이미지에서 3D 장면을 렌더링하기 위한 효율적인 표현 방식으로 등장하여 이미지, 비디오, 동적 4D 콘텐츠로 확장되었습니다. 그러나 GS 기반 표현에 스타일 전환을 적용하는 것은, 특히 단순한 색상 변경을 넘어서는 경우, 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 CLIPGaussians를 소개합니다. 이는 텍스트 및 이미지 기반 스타일화를 지원하며 2D 이미지, 비디오, 3D 객체, 4D 장면 등 다양한 모달리티에 걸쳐 적용 가능한 최초의 통합 스타일 전환 프레임워크입니다. 우리의 방법은 가우시안 프리미티브에 직접 작동하며, 대규모 생성 모델이나 처음부터 재학습이 필요 없이 기존 GS 파이프라인에 플러그인 모듈로 통합됩니다. CLIPGaussians 접근법은 3D 및 4D 설정에서 색상과 기하학적 구조의 공동 최적화를 가능하게 하며, 비디오에서 시간적 일관성을 달성하면서도 모델 크기를 유지합니다. 우리는 모든 작업에서 뛰어난 스타일 충실도와 일관성을 입증함으로써 CLIPGaussians가 다중 모달 스타일 전환을 위한 보편적이고 효율적인 솔루션임을 검증합니다.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
PDF52May 30, 2025