3DitScene: Edición de cualquier escena mediante Splatting Gaussiano Desenredado Guiado por Lenguaje
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
May 28, 2024
Autores: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI
Resumen
La edición de imágenes de escenas es crucial para el entretenimiento, la fotografía y el diseño publicitario. Los métodos existentes se centran únicamente en la edición de objetos individuales en 2D o en la edición global de escenas en 3D. Esto resulta en la falta de un enfoque unificado para controlar y manipular eficazmente las escenas a nivel 3D con diferentes niveles de granularidad. En este trabajo, proponemos 3DitScene, un marco novedoso y unificado para la edición de escenas que aprovecha el desacoplamiento guiado por lenguaje mediante Gaussian Splatting, permitiendo una edición fluida de 2D a 3D y un control preciso sobre la composición de la escena y los objetos individuales. Primero incorporamos Gaussianas 3D que se refinan mediante técnicas de optimización y priors generativos. Luego, las características de lenguaje de CLIP introducen semántica en la geometría 3D para el desacoplamiento de objetos. Con las Gaussianas desacopladas, 3DitScene permite la manipulación tanto a nivel global como individual, revolucionando la expresión creativa y otorgando un mayor control sobre las escenas y los objetos. Los resultados experimentales demuestran la efectividad y versatilidad de 3DitScene en la edición de imágenes de escenas. El código y una demostración en línea están disponibles en nuestra página del proyecto: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and
advertising design. Existing methods solely focus on either 2D individual
object or 3D global scene editing. This results in a lack of a unified approach
to effectively control and manipulate scenes at the 3D level with different
levels of granularity. In this work, we propose 3DitScene, a novel and unified
scene editing framework leveraging language-guided disentangled Gaussian
Splatting that enables seamless editing from 2D to 3D, allowing precise control
over scene composition and individual objects. We first incorporate 3D
Gaussians that are refined through generative priors and optimization
techniques. Language features from CLIP then introduce semantics into 3D
geometry for object disentanglement. With the disentangled Gaussians, 3DitScene
allows for manipulation at both the global and individual levels,
revolutionizing creative expression and empowering control over scenes and
objects. Experimental results demonstrate the effectiveness and versatility of
3DitScene in scene image editing. Code and online demo can be found at our
project homepage: https://zqh0253.github.io/3DitScene/.