CLIPGaussian: Универсальный и мультимодальный перенос стилей на основе гауссовского сплайсинга
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting
May 28, 2025
Авторы: Kornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek
cs.AI
Аннотация
Гауссово разбиение (Gaussian Splatting, GS) недавно появилось как эффективное представление для рендеринга 3D-сцен из 2D-изображений и было расширено для работы с изображениями, видео и динамическим 4D-контентом. Однако применение переноса стиля к представлениям на основе GS, особенно за пределами простых изменений цвета, остается сложной задачей. В данной работе мы представляем CLIPGaussians — первую унифицированную структуру для переноса стиля, которая поддерживает стилизацию, управляемую текстом и изображениями, для множества модальностей: 2D-изображений, видео, 3D-объектов и 4D-сцен. Наш метод работает непосредственно с гауссовыми примитивами и интегрируется в существующие GS-конвейеры в качестве подключаемого модуля, не требуя использования крупных генеративных моделей или повторного обучения с нуля. Подход CLIPGaussians позволяет совместно оптимизировать цвет и геометрию в 3D и 4D-сценах, обеспечивает временную согласованность в видео, сохраняя при этом размер модели. Мы демонстрируем превосходную точность и согласованность стиля во всех задачах, подтверждая CLIPGaussians как универсальное и эффективное решение для мультимодального переноса стиля.
English
Gaussian Splatting (GS) has recently emerged as an efficient representation
for rendering 3D scenes from 2D images and has been extended to images, videos,
and dynamic 4D content. However, applying style transfer to GS-based
representations, especially beyond simple color changes, remains challenging.
In this work, we introduce CLIPGaussians, the first unified style transfer
framework that supports text- and image-guided stylization across multiple
modalities: 2D images, videos, 3D objects, and 4D scenes. Our method operates
directly on Gaussian primitives and integrates into existing GS pipelines as a
plug-in module, without requiring large generative models or retraining from
scratch. CLIPGaussians approach enables joint optimization of color and
geometry in 3D and 4D settings, and achieves temporal coherence in videos,
while preserving a model size. We demonstrate superior style fidelity and
consistency across all tasks, validating CLIPGaussians as a universal and
efficient solution for multimodal style transfer.