IFAdapter : Contrôle des Caractéristiques d'Instance pour la Génération Texte-Image Fondée sur des Données
IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation
September 12, 2024
Auteurs: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
cs.AI
Résumé
Alors que les modèles de diffusion Texte-vers-Image (T2I) excellent dans la génération d'images visuellement attrayantes d'instances individuelles, ils ont du mal à positionner et contrôler avec précision la génération de caractéristiques de multiples instances. La tâche de Mise en Page-vers-Image (L2I) a été introduite pour résoudre les défis de positionnement en incorporant des boîtes englobantes en tant que signaux de contrôle spatial, mais elle reste insuffisante pour générer des caractéristiques d'instances précises. En réponse, nous proposons la tâche de Génération de Caractéristiques d'Instance (IFG), qui vise à garantir à la fois la précision de positionnement et la fidélité des caractéristiques des instances générées. Pour aborder la tâche IFG, nous introduisons l'Adaptateur de Caractéristiques d'Instance (IFAdapter). L'IFAdapter améliore la représentation des caractéristiques en incorporant des jetons d'apparence supplémentaires et en utilisant une Carte Sémantique d'Instance pour aligner les caractéristiques au niveau de l'instance avec les emplacements spatiaux. L'IFAdapter guide le processus de diffusion en tant que module plug-and-play, le rendant adaptable à divers modèles de la communauté. Pour l'évaluation, nous contribuons à un banc d'essai IFG et développons un pipeline de vérification pour comparer objectivement les capacités des modèles à générer des instances avec un positionnement et des caractéristiques précis. Les résultats expérimentaux démontrent que l'IFAdapter surpasse les autres modèles à la fois dans les évaluations quantitatives et qualitatives.
English
While Text-to-Image (T2I) diffusion models excel at generating visually
appealing images of individual instances, they struggle to accurately position
and control the features generation of multiple instances. The Layout-to-Image
(L2I) task was introduced to address the positioning challenges by
incorporating bounding boxes as spatial control signals, but it still falls
short in generating precise instance features. In response, we propose the
Instance Feature Generation (IFG) task, which aims to ensure both positional
accuracy and feature fidelity in generated instances. To address the IFG task,
we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances
feature depiction by incorporating additional appearance tokens and utilizing
an Instance Semantic Map to align instance-level features with spatial
locations. The IFAdapter guides the diffusion process as a plug-and-play
module, making it adaptable to various community models. For evaluation, we
contribute an IFG benchmark and develop a verification pipeline to objectively
compare models' abilities to generate instances with accurate positioning and
features. Experimental results demonstrate that IFAdapter outperforms other
models in both quantitative and qualitative evaluations.Summary
AI-Generated Summary