ROICtrl: 視覚生成のためのインスタンス制御の強化ROICtrl: Boosting Instance Control for Visual Generation
自然言語はしばしば、複数のインスタンスに位置情報や属性情報を正確に関連付けることに苦労し、これにより現在のテキストベースのビジュアル生成モデルは、わずかな支配的なインスタンスのみを備えたより単純な構成に限定されています。この制限に対処するために、本研究では、各インスタンスがバウンディングボックスとフリーフォームのキャプションによって制御される地域インスタンス制御を導入することで、拡散モデルを強化しています。この領域の従来の手法は、通常、暗黙の位置エンコーディングや明示的な注意マスクに依存して、関心領域(ROI)を分離しようとしますが、これにより不正確な座標の注入や大きな計算オーバーヘッドが生じます。物体検出におけるROI-Alignから着想を得て、ROI-Unpoolという補完的な操作を導入します。ROI-AlignとROI-Unpoolを組み合わせることで、視覚生成のための高解像度特徴マップ上での明示的で効率的かつ正確なROI操作が可能となります。ROI-Unpoolを基盤として、事前学習済みの拡散モデルに対して、精密な地域インスタンス制御を可能にするROICtrlを提案します。ROICtrlは、コミュニティによって微調整された拡散モデルと互換性があり、既存の空間ベースのアドオン(例:ControlNet、T2I-Adapter)や埋め込みベースのアドオン(例:IP-Adapter、ED-LoRA)とも互換性があり、これらのアプリケーションをマルチインスタンス生成に拡張します。実験結果は、ROICtrlが地域インスタンス制御において優れた性能を発揮し、計算コストを大幅に削減することを示しています。