LooseControl: Расширение ControlNet для обобщённого управления на основе глубины

Аннотация

Мы представляем LooseControl — метод, позволяющий использовать обобщённое управление по глубине для генерации изображений на основе диффузионных моделей. ControlNet, современный метод генерации изображений с условием по глубине, демонстрирует впечатляющие результаты, но требует наличия детализированных карт глубины для управления. Создание таких точных карт глубины во многих сценариях является сложной задачей. В данной работе представлена обобщённая версия управления по глубине, которая открывает множество новых возможностей для создания контента. В частности, мы позволяем (C1) управлять границами сцены, задавая их лишь приблизительно, и (C2) управлять 3D-боксами для указания расположения целевых объектов, а не их точной формы и внешнего вида. Используя LooseControl вместе с текстовыми подсказками, пользователи могут создавать сложные среды (например, комнаты, уличные виды и т.д.), задавая только границы сцены и расположение основных объектов. Кроме того, мы предоставляем два механизма редактирования для уточнения результатов: (E1) редактирование 3D-боксов позволяет пользователю изменять, добавлять или удалять боксы, сохраняя стиль изображения. Это приводит к минимальным изменениям, за исключением тех, которые вызваны редактированием боксов. (E2) редактирование атрибутов предлагает возможные направления для изменения определённого аспекта сцены, например, общей плотности объектов или конкретного объекта. Многочисленные тесты и сравнения с базовыми методами демонстрируют универсальность нашего подхода. Мы считаем, что LooseControl может стать важным инструментом для простого создания сложных сред и быть расширен для работы с другими типами управляющих каналов. Код и дополнительная информация доступны по адресу https://shariqfarooq123.github.io/loose-control/.

English

We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .

LooseControl: Расширение ControlNet для обобщённого управления на основе глубины

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

Аннотация

Support