ChatPaper.aiChatPaper

3DitScene: Bearbeitung beliebiger Szenen mittels sprachgesteuerter entwirrter Gaußscher Splatting

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28, 2024
Autoren: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI

Zusammenfassung

Die Bearbeitung von Szenenbildern ist entscheidend für Unterhaltung, Fotografie und Werbegrafik. Bestehende Methoden konzentrieren sich ausschließlich entweder auf die 2D-Bearbeitung einzelner Objekte oder die 3D-Bearbeitung globaler Szenen. Dies führt zu einem Mangel an einem einheitlichen Ansatz, um Szenen auf 3D-Ebene mit unterschiedlichen Granularitätsstufen effektiv zu steuern und zu manipulieren. In dieser Arbeit schlagen wir 3DitScene vor, ein neuartiges und einheitliches Szenenbearbeitungs-Framework, das auf sprachgesteuertem entkoppeltem Gauss-Splatting basiert und eine nahtlose Bearbeitung von 2D auf 3D ermöglicht, wodurch eine präzise Steuerung über Szenenzusammensetzung und einzelne Objekte ermöglicht wird. Zunächst integrieren wir 3D-Gaußscheiben, die durch generative Priors und Optimierungstechniken verfeinert werden. Sprachmerkmale von CLIP führen dann Semantik in die 3D-Geometrie für die Entkopplung von Objekten ein. Mit den entkoppelten Gaußschen ermöglicht 3DitScene Manipulationen sowohl auf globaler als auch auf individueller Ebene, revolutioniert die kreative Ausdrucksweise und ermöglicht die Kontrolle über Szenen und Objekte. Experimentelle Ergebnisse zeigen die Wirksamkeit und Vielseitigkeit von 3DitScene bei der Bearbeitung von Szenenbildern. Der Code und die Online-Demo finden Sie auf unserer Projekt-Homepage: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.

Summary

AI-Generated Summary

PDF90December 12, 2024