CLIPGaussian: Trasferimento Stilistico Universale e Multimodale Basato su Gaussian Splatting
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
May 28, 2025
Autori: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI
Abstract
Il Gaussian Splatting (GS) è emerso recentemente come una rappresentazione efficiente per il rendering di scene 3D a partire da immagini 2D ed è stato esteso a immagini, video e contenuti dinamici 4D. Tuttavia, applicare il trasferimento di stile alle rappresentazioni basate su GS, specialmente oltre semplici cambiamenti di colore, rimane una sfida. In questo lavoro, introduciamo CLIPGaussians, il primo framework unificato per il trasferimento di stile che supporta la stilizzazione guidata da testo e immagini attraverso molteplici modalità: immagini 2D, video, oggetti 3D e scene 4D. Il nostro metodo opera direttamente sulle primitive gaussiane e si integra nelle pipeline esistenti di GS come modulo plug-in, senza richiedere grandi modelli generativi o un riaddestramento da zero. L'approccio CLIPGaussians consente l'ottimizzazione congiunta di colore e geometria in contesti 3D e 4D, e raggiunge la coerenza temporale nei video, mantenendo al contempo una dimensione ridotta del modello. Dimostriamo una fedeltà e coerenza di stile superiori in tutti i compiti, validando CLIPGaussians come una soluzione universale ed efficiente per il trasferimento di stile multimodale.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation
for rendering 3D scenes from 2D images and has been extended to images, videos,
and dynamic 4D content. However, applying style transfer to GS-based
representations, especially beyond simple color changes, remains challenging.
In this work, we introduce CLIPGaussians, the first unified style transfer
framework that supports text- and image-guided stylization across multiple
modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates
directly on Gaussian primitives and integrates into existing GS pipelines as a
plug-in module, without requiring large generative models or retraining from
scratch. CLIPGaussians approach enables joint optimization of color and
geometry in 3D and 4D settings, and achieves temporal coherence in videos,
while preserving a model size. We demonstrate superior style fidelity and
consistency across all tasks, validating CLIPGaussians as a universal and
efficient solution for multimodal style transfer.