ChatPaper.aiChatPaper

3DitScene : Édition de n'importe quelle scène via un éclatement gaussien désentrelacé guidé par le langage

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28, 2024
Auteurs: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI

Résumé

L'édition d'images de scènes est essentielle pour le divertissement, la photographie et la conception publicitaire. Les méthodes existantes se concentrent uniquement sur l'édition d'objets individuels en 2D ou de scènes globales en 3D. Cela entraîne un manque d'approche unifiée pour contrôler et manipuler efficacement les scènes au niveau 3D avec différents niveaux de granularité. Dans ce travail, nous proposons 3DitScene, un nouveau cadre d'édition de scènes unifié exploitant le dégroupage guidé par le langage de splatting Gaussien, permettant une édition fluide du 2D au 3D et un contrôle précis de la composition de la scène et des objets individuels. Nous intégrons d'abord des Gaussiennes 3D affinées grâce à des a priori génératifs et des techniques d'optimisation. Les caractéristiques linguistiques de CLIP introduisent ensuite la sémantique dans la géométrie 3D pour le dégroupage des objets. Avec les Gaussiennes dégroupées, 3DitScene permet une manipulation à la fois globale et individuelle, révolutionnant l'expression créative et offrant un contrôle accru sur les scènes et les objets. Les résultats expérimentaux démontrent l'efficacité et la polyvalence de 3DitScene dans l'édition d'images de scènes. Le code et une démonstration en ligne sont disponibles sur notre page de projet : https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.

Summary

AI-Generated Summary

PDF90December 12, 2024