ChatPaper.aiChatPaper

GaussianBlender: Estilização Instantânea de Gaussianos 3D com Espaços Latentes Desacoplados

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
Autores: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

Resumo

A estilização 3D é central para o desenvolvimento de jogos, realidade virtual e artes digitais, onde a demanda por ativos diversificados exige métodos escaláveis que suportem manipulação rápida e de alta fidelidade. Os métodos existentes de estilização de texto para 3D geralmente utilizam *distillation* a partir de editores de imagem 2D, exigindo otimização intensiva por ativo e exibindo inconsistência multi-visual devido às limitações dos modelos atuais de texto para imagem, o que os torna impraticáveis para produção em larga escala. Neste artigo, introduzimos o GaussianBlender, uma estrutura pioneira *feed-forward* para estilização 3D orientada por texto que realiza edições instantaneamente na inferência. Nosso método aprende espaços latentes estruturados e desacoplados com compartilhamento controlado de informação para geometria e aparência a partir de Gaussianas 3D agrupadas espacialmente. Um modelo de difusão latente então aplica edições condicionadas por texto nessas representações aprendidas. Avaliações abrangentes mostram que o GaussianBlender não apenas oferece estilização instantânea, de alta fidelidade, preservadora de geometria e multi-visualmente consistente, mas também supera métodos que exigem otimização em tempo de teste por instância - desbloqueando a estilização 3D prática e democratizada em escala.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF32April 2, 2026