ChatPaper.aiChatPaper

3DitScene: Edição de Qualquer Cena via Desagregação Gaussiana Orientada por Linguagem

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28, 2024
Autores: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI

Resumo

A edição de imagens de cenas é crucial para entretenimento, fotografia e design publicitário. Os métodos existentes focam exclusivamente na edição de objetos individuais em 2D ou na edição global de cenas em 3D. Isso resulta na falta de uma abordagem unificada para controlar e manipular efetivamente cenas no nível 3D com diferentes níveis de granularidade. Neste trabalho, propomos o 3DitScene, uma nova e unificada estrutura de edição de cenas que utiliza o Splatting Gaussiano desacoplado guiado por linguagem, permitindo uma edição contínua de 2D para 3D e um controle preciso sobre a composição da cena e objetos individuais. Primeiro, incorporamos Gaussianas 3D que são refinadas por meio de priors generativos e técnicas de otimização. Em seguida, características de linguagem do CLIP introduzem semântica na geometria 3D para o desacoplamento de objetos. Com as Gaussianas desacopladas, o 3DitScene permite manipulações tanto no nível global quanto no nível individual, revolucionando a expressão criativa e oferecendo controle sobre cenas e objetos. Resultados experimentais demonstram a eficácia e versatilidade do 3DitScene na edição de imagens de cenas. O código e uma demonstração online podem ser encontrados na página do nosso projeto: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.
PDF90December 12, 2024