ChatPaper.aiChatPaper

CLIPGaussian: Universeller und multimodaler Stiltransfer basierend auf Gaussian Splatting

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28, 2025
Autoren: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI

Zusammenfassung

Gaussian Splatting (GS) hat sich kürzlich als effiziente Darstellung für das Rendern von 3D-Szenen aus 2D-Bildern etabliert und wurde auf Bilder, Videos und dynamische 4D-Inhalte erweitert. Die Anwendung von Stiltransfer auf GS-basierte Darstellungen, insbesondere über einfache Farbänderungen hinaus, bleibt jedoch eine Herausforderung. In dieser Arbeit stellen wir CLIPGaussians vor, das erste einheitliche Stiltransfer-Framework, das text- und bildgesteuerte Stilisierung über mehrere Modalitäten hinweg unterstützt: 2D-Bilder, Videos, 3D-Objekte und 4D-Szenen. Unsere Methode arbeitet direkt auf Gaußschen Primitiven und integriert sich als Plug-in-Modul in bestehende GS-Pipelines, ohne große generative Modelle oder ein Neulernen von Grund auf zu erfordern. Der CLIPGaussians-Ansatz ermöglicht eine gemeinsame Optimierung von Farbe und Geometrie in 3D- und 4D-Umgebungen und erreicht zeitliche Kohärenz in Videos, während die Modellgröße erhalten bleibt. Wir demonstrieren überlegene Stiltreue und Konsistenz über alle Aufgaben hinweg und validieren CLIPGaussians als universelle und effiziente Lösung für multimodalen Stiltransfer.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
PDF52May 30, 2025