ROICtrl: Potenziamento del Controllo delle Istanze per la Generazione VisualeROICtrl: Boosting Instance Control for Visual Generation
Il linguaggio naturale spesso fatica ad associare in modo accurato informazioni posizionali e attributive con molteplici istanze, limitando i modelli di generazione visiva basati su testo attuali a composizioni più semplici che presentano solo poche istanze dominanti. Per affrontare questa limitazione, questo lavoro potenzia i modelli di diffusione introducendo il controllo dell'istanza regionale, in cui ciascuna istanza è regolata da un box di delimitazione abbinato a una didascalia in forma libera. I metodi precedenti in questo ambito solitamente si basano su codifica implicita della posizione o maschere di attenzione esplicite per separare le regioni di interesse (ROI), con conseguente iniezione di coordinate inaccurata o elevati costi computazionali. Ispirandoci a ROI-Align nella rilevazione degli oggetti, introduciamo un'operazione complementare chiamata ROI-Unpool. Insieme, ROI-Align e ROI-Unpool consentono una manipolazione esplicita, efficiente e precisa delle ROI su mappe delle caratteristiche ad alta risoluzione per la generazione visiva. Basandoci su ROI-Unpool, proponiamo ROICtrl, un adattatore per modelli di diffusione preaddestrati che consente un preciso controllo dell'istanza regionale. ROICtrl è compatibile con modelli di diffusione sintonizzati dalla comunità, nonché con estensioni basate su spazialità esistenti (ad es., ControlNet, T2I-Adapter) ed estensioni basate su embedding (ad es., IP-Adapter, ED-LoRA), estendendone le applicazioni alla generazione multi-istanza. Gli esperimenti mostrano che ROICtrl raggiunge prestazioni superiori nel controllo dell'istanza regionale riducendo significativamente i costi computazionali.