CLIPGaussian: Transferência de Estilo Universal e Multimodal Baseada em Espalhamento Gaussiano
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
May 28, 2025
Autores: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI
Resumo
O Gaussian Splatting (GS) surgiu recentemente como uma representação eficiente para renderização de cenas 3D a partir de imagens 2D e foi estendido para imagens, vídeos e conteúdo dinâmico 4D. No entanto, aplicar transferência de estilo a representações baseadas em GS, especialmente além de simples mudanças de cor, continua sendo um desafio. Neste trabalho, apresentamos o CLIPGaussians, o primeiro framework unificado de transferência de estilo que suporta estilização guiada por texto e imagem em múltiplas modalidades: imagens 2D, vídeos, objetos 3D e cenas 4D. Nosso método opera diretamente em primitivas Gaussianas e se integra aos pipelines existentes de GS como um módulo plug-in, sem a necessidade de grandes modelos generativos ou retreinamento do zero. A abordagem CLIPGaussians permite a otimização conjunta de cor e geometria em ambientes 3D e 4D, e alcança coerência temporal em vídeos, mantendo o tamanho do modelo. Demonstramos fidelidade e consistência de estilo superiores em todas as tarefas, validando o CLIPGaussians como uma solução universal e eficiente para transferência de estilo multimodal.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation
for rendering 3D scenes from 2D images and has been extended to images, videos,
and dynamic 4D content. However, applying style transfer to GS-based
representations, especially beyond simple color changes, remains challenging.
In this work, we introduce CLIPGaussians, the first unified style transfer
framework that supports text- and image-guided stylization across multiple
modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates
directly on Gaussian primitives and integrates into existing GS pipelines as a
plug-in module, without requiring large generative models or retraining from
scratch. CLIPGaussians approach enables joint optimization of color and
geometry in 3D and 4D settings, and achieves temporal coherence in videos,
while preserving a model size. We demonstrate superior style fidelity and
consistency across all tasks, validating CLIPGaussians as a universal and
efficient solution for multimodal style transfer.