3DitScene: 言語誘導型分離ガウシアンスプラッティングによる任意シーンの編集
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
May 28, 2024
著者: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI
要旨
シーン画像編集は、エンターテインメント、写真、広告デザインにおいて重要な役割を果たします。既存の手法は、2Dの個別オブジェクトまたは3Dのグローバルシーン編集のいずれかにのみ焦点を当てています。これにより、異なる粒度レベルで3Dレベルでシーンを効果的に制御および操作するための統一されたアプローチが欠如しています。本研究では、言語誘導型の分離ガウススプラッティングを活用した新しい統一シーン編集フレームワークである3DitSceneを提案します。これにより、2Dから3Dへのシームレスな編集が可能となり、シーン構成と個別オブジェクトの精密な制御が実現します。まず、生成事前分布と最適化技術を通じて洗練された3Dガウシアンを組み込みます。次に、CLIPからの言語特徴を3Dジオメトリに導入し、オブジェクトの分離を行います。分離されたガウシアンを用いることで、3DitSceneはグローバルレベルと個別レベルの両方での操作を可能にし、創造的な表現を革新し、シーンとオブジェクトに対する制御を強化します。実験結果は、3DitSceneのシーン画像編集における有効性と汎用性を実証しています。コードとオンラインデモはプロジェクトホームページ(https://zqh0253.github.io/3DitScene/)でご覧いただけます。
English
Scene image editing is crucial for entertainment, photography, and
advertising design. Existing methods solely focus on either 2D individual
object or 3D global scene editing. This results in a lack of a unified approach
to effectively control and manipulate scenes at the 3D level with different
levels of granularity. In this work, we propose 3DitScene, a novel and unified
scene editing framework leveraging language-guided disentangled Gaussian
Splatting that enables seamless editing from 2D to 3D, allowing precise control
over scene composition and individual objects. We first incorporate 3D
Gaussians that are refined through generative priors and optimization
techniques. Language features from CLIP then introduce semantics into 3D
geometry for object disentanglement. With the disentangled Gaussians, 3DitScene
allows for manipulation at both the global and individual levels,
revolutionizing creative expression and empowering control over scenes and
objects. Experimental results demonstrate the effectiveness and versatility of
3DitScene in scene image editing. Code and online demo can be found at our
project homepage: https://zqh0253.github.io/3DitScene/.Summary
AI-Generated Summary