GaussianBlender: Sofortige Stilisierung von 3D-Gauss-Verteilungen mittels entkoppelter Latent Spaces
GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces
December 3, 2025
papers.authors: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI
papers.abstract
Die 3D-Stylisierung ist von zentraler Bedeutung für die Spieleentwicklung, virtuelle Realität und digitale Kunst, wo die Nachfrage nach diversen Assets skalierbare Methoden erfordert, die eine schnelle, hochwertige Manipulation unterstützen. Bestehende Text-zu-3D-Stylisierungsmethoden basieren typischerweise auf der Distillation von 2D-Bildeditoren, erfordern einen zeitintensiven Optimierungsprozess pro Asset und weisen aufgrund der Grenzen aktueller Text-zu-Bild-Modelle Inkonsistenzen zwischen den Ansichten auf, was sie für die Großproduktion unpraktisch macht. In diesem Artikel stellen wir GaussianBlender vor, ein bahnbrechendes vorwärtsgerichtetes Framework für textgesteuerte 3D-Stylisierung, das Bearbeitungen sofort während der Inferenz durchführt. Unsere Methode lernt strukturierte, entflochtene Latent-Räume mit kontrolliertem Informationsaustausch für Geometrie und Erscheinungsbild von räumlich gruppierten 3D-Gaussianern. Ein latentes Diffusionsmodell wendet dann textkonditionierte Bearbeitungen auf diese gelernten Repräsentationen an. Umfassende Evaluierungen zeigen, dass GaussianBlender nicht nur sofortige, hochwertige, geometrieerhaltende, multiview-konsistente Stylisierung liefert, sondern auch Methoden übertrifft, die eine pro-Instanz-Optimierung zur Testzeit erfordern – und damit praktische, demokratisierte 3D-Stylisierung im großen Maßstab ermöglicht.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.