ChatPaper.aiChatPaper

3DitScene: Edición de cualquier escena mediante Splatting Gaussiano Desenredado Guiado por Lenguaje

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28, 2024
Autores: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI

Resumen

La edición de imágenes de escenas es crucial para el entretenimiento, la fotografía y el diseño publicitario. Los métodos existentes se centran únicamente en la edición de objetos individuales en 2D o en la edición global de escenas en 3D. Esto resulta en la falta de un enfoque unificado para controlar y manipular eficazmente las escenas a nivel 3D con diferentes niveles de granularidad. En este trabajo, proponemos 3DitScene, un marco novedoso y unificado para la edición de escenas que aprovecha el desacoplamiento guiado por lenguaje mediante Gaussian Splatting, permitiendo una edición fluida de 2D a 3D y un control preciso sobre la composición de la escena y los objetos individuales. Primero incorporamos Gaussianas 3D que se refinan mediante técnicas de optimización y priors generativos. Luego, las características de lenguaje de CLIP introducen semántica en la geometría 3D para el desacoplamiento de objetos. Con las Gaussianas desacopladas, 3DitScene permite la manipulación tanto a nivel global como individual, revolucionando la expresión creativa y otorgando un mayor control sobre las escenas y los objetos. Los resultados experimentales demuestran la efectividad y versatilidad de 3DitScene en la edición de imágenes de escenas. El código y una demostración en línea están disponibles en nuestra página del proyecto: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.
PDF90December 12, 2024