ChatPaper.aiChatPaper

CLIPGaussian: Transferencia de Estilo Universal y Multimodal Basada en Proyección Gaussiana

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28, 2025
Autores: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI

Resumen

El método de representación conocido como Gaussian Splatting (GS) ha surgido recientemente como una técnica eficiente para renderizar escenas 3D a partir de imágenes 2D, y se ha extendido a imágenes, videos y contenido dinámico 4D. Sin embargo, aplicar transferencia de estilo a representaciones basadas en GS, especialmente más allá de simples cambios de color, sigue siendo un desafío. En este trabajo, presentamos CLIPGaussians, el primer marco unificado de transferencia de estilo que admite la estilización guiada por texto e imágenes en múltiples modalidades: imágenes 2D, videos, objetos 3D y escenas 4D. Nuestro método opera directamente sobre primitivas gaussianas y se integra en las tuberías existentes de GS como un módulo complementario, sin requerir modelos generativos grandes ni reentrenamiento desde cero. El enfoque de CLIPGaussians permite la optimización conjunta de color y geometría en entornos 3D y 4D, logra coherencia temporal en videos y mantiene un tamaño de modelo reducido. Demostramos una fidelidad y consistencia de estilo superiores en todas las tareas, validando CLIPGaussians como una solución universal y eficiente para la transferencia de estilo multimodal.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
PDF52May 30, 2025