ChatPaper.aiChatPaper

GaussianBlender: Estilización Instantánea de Gaussianos 3D con Espacios Latentes Disociados

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
Autores: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

Resumen

La estilización 3D es fundamental para el desarrollo de videojuegos, la realidad virtual y las artes digitales, donde la demanda de recursos diversos requiere métodos escalables que permitan una manipulación rápida y de alta fidelidad. Los métodos existentes de estilización de texto a 3D generalmente se basan en la destilación de editores de imágenes 2D, requiriendo una optimización intensiva por recurso y exhibiendo inconsistencia multi-vista debido a las limitaciones de los modelos actuales de texto a imagen, lo que los hace impracticables para la producción a gran escala. En este artículo, presentamos GaussianBlender, un marco pionero de propagación directa para la estilización 3D guiada por texto que realiza ediciones al instante durante la inferencia. Nuestro método aprecia espacios latentes estructurados y desentrelazados con intercambio de información controlado para la geometría y la apariencia a partir de Gaussianas 3D agrupadas espacialmente. Un modelo de difusión latente aplica entonces ediciones condicionadas por texto sobre estas representaciones aprendidas. Evaluaciones exhaustivas demuestran que GaussianBlender no solo ofrece una estilización instantánea, de alta fidelidad, que preserva la geometría y es consistente multi-vista, sino que también supera a los métodos que requieren optimización en tiempo de prueba por instancia, desbloqueando así una estilización 3D práctica y democratizada a escala.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF11December 6, 2025