ROICtrl: Versterking van Instantiecontrole voor Visuele Generatie
ROICtrl: Boosting Instance Control for Visual Generation
November 27, 2024
Auteurs: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Samenvatting
De natuurlijke taal worstelt vaak om nauwkeurig positionele en attribuutinformatie te associëren met meerdere instanties, wat de huidige op tekst gebaseerde visuele generatiemodellen beperkt tot eenvoudigere composities met slechts een paar dominante instanties. Om deze beperking aan te pakken, verbetert dit werk diffusiemodellen door regionale instantiecontrole te introduceren, waarbij elke instantie wordt beheerst door een begrenzingskader gekoppeld aan een vrije tekstbijschrift. Vorige methoden op dit gebied vertrouwen doorgaans op impliciete positie-encodering of expliciete aandachtsmaskers om regio's van belang (ROIs) te scheiden, resulterend in ofwel onnauwkeurige coördinaatinjectie of grote computationele overhead. Geïnspireerd door ROI-Align in objectdetectie, introduceren we een aanvullende bewerking genaamd ROI-Unpool. Samen maken ROI-Align en ROI-Unpool expliciete, efficiënte en nauwkeurige ROI-manipulatie mogelijk op hoge-resolutie kenmerkkaarten voor visuele generatie. Voortbouwend op ROI-Unpool stellen we ROICtrl voor, een adapter voor vooraf getrainde diffusiemodellen die precieze regionale instantiecontrole mogelijk maakt. ROICtrl is compatibel met door de gemeenschap gefinetunede diffusiemodellen, evenals met bestaande op ruimte gebaseerde toevoegingen (bijv. ControlNet, T2I-Adapter) en op embedding gebaseerde toevoegingen (bijv. IP-Adapter, ED-LoRA), waardoor hun toepassingen worden uitgebreid naar multi-instantie generatie. Experimenten tonen aan dat ROICtrl superieure prestaties levert in regionale instantiecontrole en tegelijkertijd de computationele kosten aanzienlijk verlaagt.
English
Natural language often struggles to accurately associate positional and
attribute information with multiple instances, which limits current text-based
visual generation models to simpler compositions featuring only a few dominant
instances. To address this limitation, this work enhances diffusion models by
introducing regional instance control, where each instance is governed by a
bounding box paired with a free-form caption. Previous methods in this area
typically rely on implicit position encoding or explicit attention masks to
separate regions of interest (ROIs), resulting in either inaccurate coordinate
injection or large computational overhead. Inspired by ROI-Align in object
detection, we introduce a complementary operation called ROI-Unpool. Together,
ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI
manipulation on high-resolution feature maps for visual generation. Building on
ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that
enables precise regional instance control. ROICtrl is compatible with
community-finetuned diffusion models, as well as with existing spatial-based
add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg,
IP-Adapter, ED-LoRA), extending their applications to multi-instance
generation. Experiments show that ROICtrl achieves superior performance in
regional instance control while significantly reducing computational costs.Summary
AI-Generated Summary