3DitScene: Bewerken van elke scène via taalgestuurde ontrafelde Gaussische Splatting
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
May 28, 2024
Auteurs: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI
Samenvatting
Scènebeeldbewerking is cruciaal voor entertainment, fotografie en reclameontwerp. Bestaande methoden richten zich uitsluitend op het bewerken van individuele 2D-objecten of globale 3D-scènes. Dit resulteert in een gebrek aan een uniforme aanpak om scènes effectief te controleren en te manipuleren op 3D-niveau met verschillende niveaus van granulariteit. In dit werk stellen we 3DitScene voor, een nieuw en uniform raamwerk voor scènebewerking dat gebruikmaakt van taalgeleide ontrafelde Gaussian Splatting, waardoor naadloze bewerking van 2D naar 3D mogelijk wordt en precieze controle over scènesamenstelling en individuele objecten wordt geboden. We integreren eerst 3D-Gaussiaanse verdelingen die worden verfijnd door generatieve prioriteiten en optimalisatietechnieken. Taalkenmerken van CLIP introduceren vervolgens semantiek in 3D-geometrie voor objectontrafeling. Met de ontrafelde Gaussiaanse verdelingen maakt 3DitScene manipulatie mogelijk op zowel globaal als individueel niveau, wat creatieve expressie revolutioneert en controle over scènes en objecten versterkt. Experimentele resultaten tonen de effectiviteit en veelzijdigheid van 3DitScene in scènebeeldbewerking aan. Code en een online demo zijn te vinden op onze projecthomepage: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and
advertising design. Existing methods solely focus on either 2D individual
object or 3D global scene editing. This results in a lack of a unified approach
to effectively control and manipulate scenes at the 3D level with different
levels of granularity. In this work, we propose 3DitScene, a novel and unified
scene editing framework leveraging language-guided disentangled Gaussian
Splatting that enables seamless editing from 2D to 3D, allowing precise control
over scene composition and individual objects. We first incorporate 3D
Gaussians that are refined through generative priors and optimization
techniques. Language features from CLIP then introduce semantics into 3D
geometry for object disentanglement. With the disentangled Gaussians, 3DitScene
allows for manipulation at both the global and individual levels,
revolutionizing creative expression and empowering control over scenes and
objects. Experimental results demonstrate the effectiveness and versatility of
3DitScene in scene image editing. Code and online demo can be found at our
project homepage: https://zqh0253.github.io/3DitScene/.