ChatPaper.aiChatPaper

GaussianBlender: Directe Stilisering van 3D Gaussians met Ontvlochten Latente Ruimten

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
Auteurs: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

Samenvatting

3D-stylisering staat centraal in game-ontwikkeling, virtuele realiteit en digitale kunst, waar de vraag naar diverse assets schaalbare methoden vereist die snelle, hoogwaardige manipulatie mogelijk maken. Bestaande tekst-naar-3D-styliseringsmethoden distilleren doorgaans vanuit 2D-afbeeldingsbewerkers, vereisen tijdintensieve optimalisatie per asset en vertonen multi-view inconsistentie door de beperkingen van huidige tekst-naar-afbeelding-modellen, wat ze onpraktisch maakt voor grootschalige productie. In dit artikel introduceren we GaussianBlender, een baanbrekend feed-forward raamwerk voor tekstgestuurde 3D-stylisering dat bewerkingen direct tijdens inferentie uitvoert. Onze methode leert gestructureerde, ontvlochten latente ruimten met gecontroleerde informatiedeling voor geometrie en uiterlijk van ruimtelijk gegroepeerde 3D-gaussiaanse verdelingen. Een latent diffusiemodel past vervolgens tekstgeconditioneerde bewerkingen toe op deze aangeleerde representaties. Uitgebreide evaluaties tonen aan dat GaussianBlender niet alleen directe, hoogwaardige, geometriebehoudende, multi-view consistente stylisering levert, maar ook methoden overtreft die per-instantie optimalisatie tijdens testtijd vereisen – waardoor praktische, gedemocratiseerde 3D-stylisering op grote schaal mogelijk wordt.
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF22December 21, 2025