ChatPaper.aiChatPaper

CLIPGaussian: Universele en Multimodale Stijloverdracht Gebaseerd op Gaussisch Splatten

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28, 2025
Auteurs: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI

Samenvatting

Gaussian Splatting (GS) is recentelijk naar voren gekomen als een efficiënte representatie voor het renderen van 3D-scènes vanuit 2D-afbeeldingen en is uitgebreid naar afbeeldingen, video's en dynamische 4D-inhoud. Het toepassen van stijloverdracht op GS-gebaseerde representaties, vooral verdergaand dan eenvoudige kleuraanpassingen, blijft echter een uitdaging. In dit werk introduceren we CLIPGaussians, het eerste geïntegreerde stijloverdrachtsframework dat tekst- en afbeelding-gestuurde stilisering ondersteunt over meerdere modaliteiten: 2D-afbeeldingen, video's, 3D-objecten en 4D-scènes. Onze methode werkt direct op Gaussiaanse primitieven en integreert als een plug-in module in bestaande GS-pipelines, zonder grote generatieve modellen of hertraining vanaf nul te vereisen. De CLIPGaussians-benadering maakt gezamenlijke optimalisatie van kleur en geometrie mogelijk in 3D- en 4D-omgevingen, en bereikt temporele coherentie in video's, terwijl de modelgrootte behouden blijft. We demonstreren superieure stijltrouw en consistentie over alle taken, wat CLIPGaussians valideert als een universele en efficiënte oplossing voor multimodale stijloverdracht.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
PDF42May 30, 2025