ROICtrl: Усиление контроля экземпляра для визуальной генерацииROICtrl: Boosting Instance Control for Visual Generation
Естественный язык часто испытывает трудности с точным сочетанием позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает текущие модели генерации визуальных данных на основе текста до более простых композиций, содержащих лишь несколько доминирующих экземпляров. Для преодоления этого ограничения данная работа улучшает модели диффузии путем внедрения регионального управления экземплярами, где каждый экземпляр управляется ограничивающим прямоугольником, сопоставленным с подробным описанием. Предыдущие методы в этой области обычно опираются на неявное кодирование позиции или явные маски внимания для разделения областей интереса (ROI), что приводит либо к неточному внедрению координат, либо к значительным вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы предлагаем дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на картах признаков высокого разрешения для генерации визуальных данных. На основе ROI-Unpool мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точное региональное управление экземплярами. ROICtrl совместим с моделями диффузии, донастроенными сообществом, а также с существующими дополнениями на основе пространственной информации (\например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (\например, IP-Adapter, ED-LoRA), расширяя их применение на генерацию нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в региональном управлении экземплярами, существенно снижая вычислительные затраты.