ROICtrl: Steigerung der Instanzsteuerung für visuelle Generierung
ROICtrl: Boosting Instance Control for Visual Generation
November 27, 2024
Autoren: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Zusammenfassung
Die natürliche Sprache hat oft Schwierigkeiten, Positionsinformationen und Attributinformationen genau mit mehreren Instanzen zu verknüpfen, was die aktuellen textbasierten visuellen Generierungsmodelle auf einfachere Kompositionen mit nur wenigen dominanten Instanzen beschränkt. Um diese Einschränkung zu überwinden, erweitert diese Arbeit Diffusionsmodelle durch die Einführung einer regionalen Instanzsteuerung, bei der jede Instanz von einer Bounding Box zusammen mit einer Freiformbeschreibung gesteuert wird. Frühere Methoden in diesem Bereich verlassen sich in der Regel auf implizite Positionsencodierung oder explizite Aufmerksamkeitsmasken zur Trennung von Regions of Interest (ROIs), was entweder zu ungenauen Koordinateneinspritzungen oder zu hohen Rechenkosten führt. Inspiriert von ROI-Align in der Objekterkennung führen wir eine ergänzende Operation namens ROI-Unpool ein. Zusammen ermöglichen ROI-Align und ROI-Unpool eine explizite, effiziente und genaue ROI-Manipulation auf hochauflösenden Merkmalskarten für die visuelle Generierung. Aufbauend auf ROI-Unpool schlagen wir ROICtrl vor, einen Adapter für vortrainierte Diffusionsmodelle, der eine präzise regionale Instanzsteuerung ermöglicht. ROICtrl ist kompatibel mit community-feinabgestimmten Diffusionsmodellen sowie mit vorhandenen spatialen Add-ons (z.B. ControlNet, T2I-Adapter) und embedding-basierten Add-ons (z.B. IP-Adapter, ED-LoRA), wodurch ihre Anwendungen auf die Mehrinstanzgenerierung erweitert werden. Experimente zeigen, dass ROICtrl eine überlegene Leistung bei der regionalen Instanzsteuerung erzielt und gleichzeitig die Rechenkosten erheblich reduziert.
English
Natural language often struggles to accurately associate positional and
attribute information with multiple instances, which limits current text-based
visual generation models to simpler compositions featuring only a few dominant
instances. To address this limitation, this work enhances diffusion models by
introducing regional instance control, where each instance is governed by a
bounding box paired with a free-form caption. Previous methods in this area
typically rely on implicit position encoding or explicit attention masks to
separate regions of interest (ROIs), resulting in either inaccurate coordinate
injection or large computational overhead. Inspired by ROI-Align in object
detection, we introduce a complementary operation called ROI-Unpool. Together,
ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI
manipulation on high-resolution feature maps for visual generation. Building on
ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that
enables precise regional instance control. ROICtrl is compatible with
community-finetuned diffusion models, as well as with existing spatial-based
add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg,
IP-Adapter, ED-LoRA), extending their applications to multi-instance
generation. Experiments show that ROICtrl achieves superior performance in
regional instance control while significantly reducing computational costs.Summary
AI-Generated Summary