3DitScene: Modifica di Qualsiasi Scena tramite Splatting Gaussiano Disaccoppiato Guidato dal Linguaggio
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
May 28, 2024
Autori: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI
Abstract
La modifica delle immagini di scene è fondamentale per l'intrattenimento, la fotografia e il design pubblicitario. I metodi esistenti si concentrano esclusivamente sulla modifica di singoli oggetti 2D o su scene globali 3D. Ciò comporta una mancanza di un approccio unificato per controllare e manipolare efficacemente le scene a livello 3D con diversi livelli di granularità. In questo lavoro, proponiamo 3DitScene, un nuovo e unificato framework di modifica delle scene che sfrutta il Gaussian Splatting guidato dal linguaggio e disaccoppiato, consentendo una modifica senza soluzione di continuità dal 2D al 3D, permettendo un controllo preciso sulla composizione della scena e sui singoli oggetti. Inizialmente incorporiamo Gaussiane 3D che vengono perfezionate attraverso prior generativi e tecniche di ottimizzazione. Le caratteristiche linguistiche di CLIP introducono quindi la semantica nella geometria 3D per il disaccoppiamento degli oggetti. Con le Gaussiane disaccoppiate, 3DitScene consente la manipolazione sia a livello globale che individuale, rivoluzionando l'espressione creativa e potenziando il controllo sulle scene e sugli oggetti. I risultati sperimentali dimostrano l'efficacia e la versatilità di 3DitScene nella modifica delle immagini di scene. Il codice e una demo online sono disponibili sulla nostra homepage del progetto: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and
advertising design. Existing methods solely focus on either 2D individual
object or 3D global scene editing. This results in a lack of a unified approach
to effectively control and manipulate scenes at the 3D level with different
levels of granularity. In this work, we propose 3DitScene, a novel and unified
scene editing framework leveraging language-guided disentangled Gaussian
Splatting that enables seamless editing from 2D to 3D, allowing precise control
over scene composition and individual objects. We first incorporate 3D
Gaussians that are refined through generative priors and optimization
techniques. Language features from CLIP then introduce semantics into 3D
geometry for object disentanglement. With the disentangled Gaussians, 3DitScene
allows for manipulation at both the global and individual levels,
revolutionizing creative expression and empowering control over scenes and
objects. Experimental results demonstrate the effectiveness and versatility of
3DitScene in scene image editing. Code and online demo can be found at our
project homepage: https://zqh0253.github.io/3DitScene/.