ChatPaper.aiChatPaper

GaussianBlender: 分離潜在空間による3Dガウシアンの瞬時スタイル転送

GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

December 3, 2025
著者: Melis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers
cs.AI

要旨

3Dスタイライゼーションは、ゲーム開発、仮想現実、デジタルアートにおいて中心的な役割を果たしており、多様なアセットへの需要から、高速かつ高忠実度な操作を可能にするスケーラブルな手法が求められている。既存のテキスト駆動型3Dスタイライゼーション手法は、一般的に2D画像編集モデルからの知識蒸留に依存しており、アセットごとに時間を要する最適化が必要である。さらに、現在のテキストto画像モデルの限界により、マルチビュー一貫性に欠けるという課題があり、大規模な制作現場での実用性が妨げられてきた。本論文では、推論時に瞬時に編集を実行する、革新的なフィードフォワード型フレームワークであるGaussianBlenderを提案する。本手法は、空間的にグループ化された3Dガウシアンから、幾何学と外観のための制御された情報共有を伴う構造化された分離潜在空間を学習する。その後、潜在拡散モデルがこの学習済み表現に対してテキスト条件付きの編集を適用する。包括的評価の結果、GaussianBlenderは、瞬時の、高忠実度な、幾何学を保持した、マルチビューで一貫性のあるスタイライゼーションを実現するだけでなく、インスタンスごとのテスト時最適化を必要とする手法を凌駕することを示した。これにより、実用的で民主化された大規模3Dスタイライゼーションの道が開かれる。
English
3D stylization is central to game development, virtual reality, and digital arts, where the demand for diverse assets calls for scalable methods that support fast, high-fidelity manipulation. Existing text-to-3D stylization methods typically distill from 2D image editors, requiring time-intensive per-asset optimization and exhibiting multi-view inconsistency due to the limitations of current text-to-image models, which makes them impractical for large-scale production. In this paper, we introduce GaussianBlender, a pioneering feed-forward framework for text-driven 3D stylization that performs edits instantly at inference. Our method learns structured, disentangled latent spaces with controlled information sharing for geometry and appearance from spatially-grouped 3D Gaussians. A latent diffusion model then applies text-conditioned edits on these learned representations. Comprehensive evaluations show that GaussianBlender not only delivers instant, high-fidelity, geometry-preserving, multi-view consistent stylization, but also surpasses methods that require per-instance test-time optimization - unlocking practical, democratized 3D stylization at scale.
PDF11December 6, 2025