ChatPaper.aiChatPaper

IFAdapter: Controllo delle Caratteristiche dell'Istanza per la Generazione di Testo in Immagini basato su Evidenze

IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

September 12, 2024
Autori: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
cs.AI

Abstract

Mentre i modelli di diffusione Testo-immagine (T2I) eccellono nella generazione di immagini visivamente accattivanti di singole istanze, faticano a posizionare con precisione e controllare la generazione delle caratteristiche di più istanze. Il compito di Layout-immagine (L2I) è stato introdotto per affrontare le sfide di posizionamento incorporando riquadri delimitatori come segnali di controllo spaziale, ma ancora manca nel generare con precisione le caratteristiche delle istanze. In risposta, proponiamo il compito di Generazione delle Caratteristiche dell'Istanza (IFG), che mira a garantire sia l'accuratezza posizionale che la fedeltà delle caratteristiche nelle istanze generate. Per affrontare il compito di IFG, introduciamo l'Adattatore delle Caratteristiche dell'Istanza (IFAdapter). L'IFAdapter migliora la rappresentazione delle caratteristiche incorporando token di aspetto aggiuntivi e utilizzando una Mappa Semantica dell'Istanza per allineare le caratteristiche a livello di istanza con le posizioni spaziali. L'IFAdapter guida il processo di diffusione come un modulo plug-and-play, rendendolo adattabile a vari modelli della comunità. Per la valutazione, contribuiamo con un benchmark di IFG e sviluppiamo un processo di verifica per confrontare oggettivamente le capacità dei modelli di generare istanze con posizionamento e caratteristiche accurate. I risultati sperimentali dimostrano che l'IFAdapter supera gli altri modelli sia nelle valutazioni quantitative che qualitative.
English
While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models' abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF232November 16, 2024