ROICtrl : Renforcement du Contrôle d'Instance pour la Génération Visuelle
ROICtrl: Boosting Instance Control for Visual Generation
November 27, 2024
Auteurs: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI
Résumé
Le langage naturel a souvent du mal à associer avec précision les informations de position et d'attribut à plusieurs instances, ce qui limite les modèles de génération visuelle basés sur du texte actuels à des compositions plus simples ne comportant que quelques instances dominantes. Pour remédier à cette limitation, ce travail améliore les modèles de diffusion en introduisant un contrôle d'instance régional, où chaque instance est régie par une boîte englobante associée à une légende libre. Les méthodes précédentes dans ce domaine s'appuient généralement sur un encodage de position implicite ou des masques d'attention explicites pour séparer les régions d'intérêt (ROIs), ce qui entraîne soit une injection de coordonnées inexacte, soit une surcharge computationnelle importante. Inspirés par ROI-Align en détection d'objets, nous introduisons une opération complémentaire appelée ROI-Unpool. Ensemble, ROI-Align et ROI-Unpool permettent une manipulation explicite, efficace et précise des ROIs sur des cartes de caractéristiques haute résolution pour la génération visuelle. En s'appuyant sur ROI-Unpool, nous proposons ROICtrl, un adaptateur pour les modèles de diffusion pré-entraînés qui permet un contrôle précis des instances régionales. ROICtrl est compatible avec les modèles de diffusion affinés par la communauté, ainsi qu'avec les ajouts basés sur l'espace existants (par exemple, ControlNet, T2I-Adapter) et les ajouts basés sur l'incorporation (par exemple, IP-Adapter, ED-LoRA), étendant leurs applications à la génération multi-instance. Les expériences montrent que ROICtrl obtient des performances supérieures en matière de contrôle d'instances régionales tout en réduisant significativement les coûts computationnels.
English
Natural language often struggles to accurately associate positional and
attribute information with multiple instances, which limits current text-based
visual generation models to simpler compositions featuring only a few dominant
instances. To address this limitation, this work enhances diffusion models by
introducing regional instance control, where each instance is governed by a
bounding box paired with a free-form caption. Previous methods in this area
typically rely on implicit position encoding or explicit attention masks to
separate regions of interest (ROIs), resulting in either inaccurate coordinate
injection or large computational overhead. Inspired by ROI-Align in object
detection, we introduce a complementary operation called ROI-Unpool. Together,
ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI
manipulation on high-resolution feature maps for visual generation. Building on
ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that
enables precise regional instance control. ROICtrl is compatible with
community-finetuned diffusion models, as well as with existing spatial-based
add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg,
IP-Adapter, ED-LoRA), extending their applications to multi-instance
generation. Experiments show that ROICtrl achieves superior performance in
regional instance control while significantly reducing computational costs.Summary
AI-Generated Summary