ChatPaper.aiChatPaper

3DitScene: Редактирование любой сцены с помощью языком управляемой дезентанглированной гауссовой проекции.

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28, 2024
Авторы: Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang
cs.AI

Аннотация

Редактирование изображений сцен является важным для развлечений, фотографии и дизайна рекламы. Существующие методы сосредотачиваются либо на 2D отдельных объектах, либо на 3D глобальном редактировании сцен. Это приводит к отсутствию унифицированного подхода к эффективному управлению и манипулированию сценами на 3D уровне с разными уровнями детализации. В данной работе мы предлагаем 3DitScene, новую и унифицированную платформу редактирования сцен, использующую разделенное гауссово сглаживание с управлением на языке, что позволяет бесшовное редактирование от 2D к 3D, обеспечивая точный контроль над композицией сцены и отдельными объектами. Сначала мы внедряем 3D гауссианы, которые уточняются через генеративные априорные знания и оптимизационные методы. Затем языковые особенности из CLIP вводят семантику в 3D геометрию для разделения объектов. С помощью разделенных гауссиан 3DitScene позволяет манипулировать как на глобальном, так и на индивидуальном уровнях, революционизируя творческое выражение и обеспечивая контроль над сценами и объектами. Экспериментальные результаты демонстрируют эффективность и универсальность 3DitScene в редактировании изображений сцен. Код и онлайн-демонстрация доступны на домашней странице нашего проекта: https://zqh0253.github.io/3DitScene/.
English
Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.

Summary

AI-Generated Summary

PDF90December 12, 2024