ChatPaper.aiChatPaper

IFAdapter : Contrôle des Caractéristiques d'Instance pour la Génération Texte-Image Fondée sur des Données

IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

September 12, 2024
Auteurs: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
cs.AI

Résumé

Alors que les modèles de diffusion Texte-vers-Image (T2I) excellent dans la génération d'images visuellement attrayantes d'instances individuelles, ils ont du mal à positionner et contrôler avec précision la génération de caractéristiques de multiples instances. La tâche de Mise en Page-vers-Image (L2I) a été introduite pour résoudre les défis de positionnement en incorporant des boîtes englobantes en tant que signaux de contrôle spatial, mais elle reste insuffisante pour générer des caractéristiques d'instances précises. En réponse, nous proposons la tâche de Génération de Caractéristiques d'Instance (IFG), qui vise à garantir à la fois la précision de positionnement et la fidélité des caractéristiques des instances générées. Pour aborder la tâche IFG, nous introduisons l'Adaptateur de Caractéristiques d'Instance (IFAdapter). L'IFAdapter améliore la représentation des caractéristiques en incorporant des jetons d'apparence supplémentaires et en utilisant une Carte Sémantique d'Instance pour aligner les caractéristiques au niveau de l'instance avec les emplacements spatiaux. L'IFAdapter guide le processus de diffusion en tant que module plug-and-play, le rendant adaptable à divers modèles de la communauté. Pour l'évaluation, nous contribuons à un banc d'essai IFG et développons un pipeline de vérification pour comparer objectivement les capacités des modèles à générer des instances avec un positionnement et des caractéristiques précis. Les résultats expérimentaux démontrent que l'IFAdapter surpasse les autres modèles à la fois dans les évaluations quantitatives et qualitatives.
English
While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models' abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF232November 16, 2024