LooseControl: Расширение ControlNet для обобщённого управления на основе глубины
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Авторы: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Аннотация
Мы представляем LooseControl — метод, позволяющий использовать обобщённое управление по глубине для генерации изображений на основе диффузионных моделей. ControlNet, современный метод генерации изображений с условием по глубине, демонстрирует впечатляющие результаты, но требует наличия детализированных карт глубины для управления. Создание таких точных карт глубины во многих сценариях является сложной задачей. В данной работе представлена обобщённая версия управления по глубине, которая открывает множество новых возможностей для создания контента. В частности, мы позволяем (C1) управлять границами сцены, задавая их лишь приблизительно, и (C2) управлять 3D-боксами для указания расположения целевых объектов, а не их точной формы и внешнего вида. Используя LooseControl вместе с текстовыми подсказками, пользователи могут создавать сложные среды (например, комнаты, уличные виды и т.д.), задавая только границы сцены и расположение основных объектов. Кроме того, мы предоставляем два механизма редактирования для уточнения результатов: (E1) редактирование 3D-боксов позволяет пользователю изменять, добавлять или удалять боксы, сохраняя стиль изображения. Это приводит к минимальным изменениям, за исключением тех, которые вызваны редактированием боксов. (E2) редактирование атрибутов предлагает возможные направления для изменения определённого аспекта сцены, например, общей плотности объектов или конкретного объекта. Многочисленные тесты и сравнения с базовыми методами демонстрируют универсальность нашего подхода. Мы считаем, что LooseControl может стать важным инструментом для простого создания сложных сред и быть расширен для работы с другими типами управляющих каналов. Код и дополнительная информация доступны по адресу https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .