CLIPGaussian: ガウススプラッティングに基づく普遍的なマルチモーダルスタイル転送
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
May 28, 2025
著者: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI
要旨
ガウシアンスプラッティング(GS)は最近、2D画像から3Dシーンをレンダリングするための効率的な表現として登場し、画像、動画、そして動的な4Dコンテンツにまで拡張されてきました。しかし、GSベースの表現にスタイル転移を適用すること、特に単純な色の変更を超えたスタイル転移は、依然として困難な課題です。本研究では、CLIPGaussiansを紹介します。これは、テキストおよび画像ガイドによるスタイル転移を2D画像、動画、3Dオブジェクト、4Dシーンといった複数のモダリティにわたってサポートする初の統合型スタイル転移フレームワークです。本手法はガウシアンプリミティブに直接作用し、既存のGSパイプラインにプラグインモジュールとして統合されるため、大規模な生成モデルやゼロからの再学習を必要としません。CLIPGaussiansアプローチは、3Dおよび4D設定における色と形状の共同最適化を可能にし、動画における時間的整合性を実現しながら、モデルサイズを維持します。すべてのタスクにおいて優れたスタイルの忠実度と一貫性を実証し、CLIPGaussiansがマルチモーダルスタイル転移のための普遍的かつ効率的なソリューションであることを検証します。
English
Gaussian Splatting (GS) has recently emerged as an efficient representation
for rendering 3D scenes from 2D images and has been extended to images, videos,
and dynamic 4D content. However, applying style transfer to GS-based
representations, especially beyond simple color changes, remains challenging.
In this work, we introduce CLIPGaussians, the first unified style transfer
framework that supports text- and image-guided stylization across multiple
modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates
directly on Gaussian primitives and integrates into existing GS pipelines as a
plug-in module, without requiring large generative models or retraining from
scratch. CLIPGaussians approach enables joint optimization of color and
geometry in 3D and 4D settings, and achieves temporal coherence in videos,
while preserving a model size. We demonstrate superior style fidelity and
consistency across all tasks, validating CLIPGaussians as a universal and
efficient solution for multimodal style transfer.