ChatPaper.aiChatPaper

ROICtrl: 視覚生成のためのインスタンス制御の強化

ROICtrl: Boosting Instance Control for Visual Generation

November 27, 2024
著者: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
cs.AI

要旨

自然言語はしばしば、複数のインスタンスに位置情報や属性情報を正確に関連付けることに苦労し、これにより現在のテキストベースのビジュアル生成モデルは、わずかな支配的なインスタンスのみを備えたより単純な構成に限定されています。この制限に対処するために、本研究では、各インスタンスがバウンディングボックスとフリーフォームのキャプションによって制御される地域インスタンス制御を導入することで、拡散モデルを強化しています。この領域の従来の手法は、通常、暗黙の位置エンコーディングや明示的な注意マスクに依存して、関心領域(ROI)を分離しようとしますが、これにより不正確な座標の注入や大きな計算オーバーヘッドが生じます。物体検出におけるROI-Alignから着想を得て、ROI-Unpoolという補完的な操作を導入します。ROI-AlignとROI-Unpoolを組み合わせることで、視覚生成のための高解像度特徴マップ上での明示的で効率的かつ正確なROI操作が可能となります。ROI-Unpoolを基盤として、事前学習済みの拡散モデルに対して、精密な地域インスタンス制御を可能にするROICtrlを提案します。ROICtrlは、コミュニティによって微調整された拡散モデルと互換性があり、既存の空間ベースのアドオン(例:ControlNet、T2I-Adapter)や埋め込みベースのアドオン(例:IP-Adapter、ED-LoRA)とも互換性があり、これらのアプリケーションをマルチインスタンス生成に拡張します。実験結果は、ROICtrlが地域インスタンス制御において優れた性能を発揮し、計算コストを大幅に削減することを示しています。
English
Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.

Summary

AI-Generated Summary

PDF712November 28, 2024