ChatPaper.aiChatPaper

GaussianBlender : Stylisation Instantanée de Gaussiennes 3D par Espaces Latents Désentrelacés

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
papers.authors: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

papers.abstract

La stylisation 3D est au cœur du développement de jeux, de la réalité virtuelle et des arts numériques, où la demande d'actifs diversifiés nécessite des méthodes évolutives permettant une manipulation rapide et haute fidélité. Les méthodes existantes de stylisation texte-à-3D s'appuient généralement sur la distillation d'éditeurs d'images 2D, nécessitant une optimisation longue et spécifique à chaque actif, et souffrant d'incohérences multi-vues dues aux limitations des modèles texte-à-image actuels, ce qui les rend impraticables pour une production à grande échelle. Dans cet article, nous présentons GaussianBlender, un cadre novador en feed-forward pour la stylisation 3D pilotée par texte, qui effectue des modifications instantanément lors de l'inférence. Notre méthode apprend des espaces latents structurés et désentrelacés avec un partage d'information contrôlé pour la géométrie et l'apparence à partir de Gaussiennes 3D groupées spatialement. Un modèle de diffusion latente applique ensuite des modifications conditionnées par le texte sur ces représentations apprises. Des évaluations approfondies montrent que GaussianBlender fournit non seulement une stylisation instantanée, haute fidélité, préservant la géométrique et cohérente en multi-vues, mais surpasse également les méthodes nécessitant une optimisation au moment du test par instance – permettant une stylisation 3D pratique et démocratisée à grande échelle.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF11December 6, 2025