ChatPaper.aiChatPaper

ROICtrl: Усиление контроля экземпляра для визуальной генерации

ROICtrl: Boosting Instance Control for Visual Generation

November 27, 2024
Авторы: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

Аннотация

Естественный язык часто испытывает трудности с точным сочетанием позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает текущие модели генерации визуальных данных на основе текста до более простых композиций, содержащих лишь несколько доминирующих экземпляров. Для преодоления этого ограничения данная работа улучшает модели диффузии путем внедрения регионального управления экземплярами, где каждый экземпляр управляется ограничивающим прямоугольником, сопоставленным с подробным описанием. Предыдущие методы в этой области обычно опираются на неявное кодирование позиции или явные маски внимания для разделения областей интереса (ROI), что приводит либо к неточному внедрению координат, либо к значительным вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы предлагаем дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на картах признаков высокого разрешения для генерации визуальных данных. На основе ROI-Unpool мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точное региональное управление экземплярами. ROICtrl совместим с моделями диффузии, донастроенными сообществом, а также с существующими дополнениями на основе пространственной информации (\например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (\например, IP-Adapter, ED-LoRA), расширяя их применение на генерацию нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в региональном управлении экземплярами, существенно снижая вычислительные затраты.
English
Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.

Summary

AI-Generated Summary

PDF712November 28, 2024