ChatPaper.aiChatPaper

GaussianBlender: Stilizzazione Istantanea di Gaussian 3D con Spazi Latenti Disaccoppiati

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
Autori: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

Abstract

La stilizzazione 3D è centrale nello sviluppo di videogiochi, nella realtà virtuale e nelle arti digitali, dove la richiesta di asset diversificati richiede metodi scalabili che supportino una manipolazione rapida e ad alta fedeltà. I metodi di stilizzazione 3D basati su testo esistenti tipicamente distillano la conoscenza da editor di immagini 2D, richiedendo un'ottimizzazione intensiva per ogni asset e mostrando inconsistenze multi-vista a causa delle limitazioni degli attuali modelli text-to-image, il che li rende impraticabili per la produzione su larga scala. In questo articolo, introduciamo GaussianBlender, un framework feed-forward pionieristico per la stilizzazione 3D guidata da testo che applica le modifiche istantaneamente all'inferenza. Il nostro metodo apprende spazi latenti strutturati e disaccoppiati con condivisione controllata dell'informazione per la geometria e l'aspetto a partire da Gaussiane 3D raggruppate spazialmente. Un modello di diffusione latente applica poi modifiche condizionate dal testo su queste rappresentazioni apprese. Valutazioni complete dimostrano che GaussianBlender non solo fornisce una stilizzazione istantanea, ad alta fedeltà, preservante la geometria e multi-vista consistente, ma supera anche i metodi che richiedono un'ottimizzazione al test-time per ogni istanza - sbloccando una stilizzazione 3D pratica e democratizzata su larga scala.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF22December 21, 2025