GaussianBlender: Мгновенная стилизация 3D-гаусссиан с развязанными латентными пространствами
GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces
December 3, 2025
Авторы: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI
Аннотация
Трехмерная стилизация играет ключевую роль в разработке игр, виртуальной реальности и цифровом искусстве, где потребность в разнообразных ассетах требует масштабируемых методов, поддерживающих быстрое и высококачественное редактирование. Существующие методы текстовой стилизации 3D-объектов обычно используют дистилляцию из 2D-редакторов изображений, что требует трудоемкой оптимизации для каждого ассета и приводит к несогласованности между видами из-за ограничений современных текстово-графических моделей, что делает их непрактичными для массового производства. В данной статье мы представляем GaussianBlender — новаторскую прямую (feed-forward) архитектуру для текстовой стилизации 3D-объектов, которая выполняет редактирование мгновенно на этапе инференса. Наш метод изучает структурированные, развязанные латентные пространства с контролируемым обменом информацией для геометрии и внешнего вида из пространственно-группированных 3D-гаусссианов. Затем латентная диффузионная модель применяет текстово-обусловленные правки к этим изученным представлениям. Комплексные оценки показывают, что GaussianBlender не только обеспечивает мгновенную, высококачественную, геометрически-сохраняющую и мульти-вью-согласованную стилизацию, но и превосходит методы, требующие оптимизации на этапе тестирования для каждого экземпляра, — открывая путь к практичной и демократизированной масштабируемой 3D-стилизации.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.