ChatPaper.aiChatPaper

CLIPGaussian : Transfert de style universel et multimodal basé sur le placage gaussien

CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28, 2025
Auteurs: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI

Résumé

Le Gaussian Splatting (GS) a récemment émergé comme une représentation efficace pour le rendu de scènes 3D à partir d'images 2D et a été étendu aux images, vidéos et contenus dynamiques 4D. Cependant, l'application du transfert de style aux représentations basées sur GS, en particulier au-delà de simples changements de couleur, reste un défi. Dans ce travail, nous présentons CLIPGaussians, le premier cadre unifié de transfert de style qui prend en charge la stylisation guidée par texte et par image à travers plusieurs modalités : images 2D, vidéos, objets 3D et scènes 4D. Notre méthode opère directement sur les primitives gaussiennes et s'intègre aux pipelines GS existants en tant que module complémentaire, sans nécessiter de modèles génératifs volumineux ni de réentraînement à partir de zéro. L'approche CLIPGaussians permet une optimisation conjointe de la couleur et de la géométrie dans les contextes 3D et 4D, et assure une cohérence temporelle dans les vidéos, tout en conservant une taille de modèle réduite. Nous démontrons une fidélité et une cohérence de style supérieures pour toutes les tâches, validant CLIPGaussians comme une solution universelle et efficace pour le transfert de style multimodal.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation for rendering 3D scenes from 2D images and has been extended to images, videos, and dynamic 4D content. However, applying style transfer to GS-based representations, especially beyond simple color changes, remains challenging. In this work, we introduce CLIPGaussians, the first unified style transfer framework that supports text- and image-guided stylization across multiple modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates directly on Gaussian primitives and integrates into existing GS pipelines as a plug-in module, without requiring large generative models or retraining from scratch. CLIPGaussians approach enables joint optimization of color and geometry in 3D and 4D settings, and achieves temporal coherence in videos, while preserving a model size. We demonstrate superior style fidelity and consistency across all tasks, validating CLIPGaussians as a universal and efficient solution for multimodal style transfer.
PDF52May 30, 2025