ChatPaper.aiChatPaper

Une image vaut plusieurs mots : Apprentissage de concepts au niveau des objets grâce à l'apprentissage par prompts multi-concepts

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

October 18, 2023
Auteurs: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI

Résumé

L'Inversion Texturale, une méthode d'apprentissage par prompts, apprend un embedding unique pour un nouveau "mot" afin de représenter le style et l'apparence d'une image, permettant ainsi son intégration dans des phrases en langage naturel pour générer de nouvelles images synthétisées. Cependant, l'identification et l'intégration de multiples concepts au niveau des objets dans une seule scène posent des défis importants, même lorsque les embeddings pour des concepts individuels sont accessibles. Ceci est en outre confirmé par nos tests empiriques. Pour relever ce défi, nous introduisons un cadre pour l'Apprentissage par Prompts Multi-Concepts (MCPL), où plusieurs nouveaux "mots" sont appris simultanément à partir d'une seule paire phrase-image. Pour améliorer la précision de la corrélation mot-concept, nous proposons trois techniques de régularisation : le Masquage de l'Attention (AttnMask) pour concentrer l'apprentissage sur les zones pertinentes ; la Perte Contrastive des Prompts (PromptCL) pour séparer les embeddings de différents concepts ; et l'Association d'Adjectifs (Bind adj.) pour lier les nouveaux "mots" à des mots connus. Nous évaluons notre méthode via la génération d'images, l'édition et la visualisation de l'attention avec des images variées. Des comparaisons quantitatives approfondies démontrent que notre méthode peut apprendre des concepts plus sémantiquement dissociés avec une meilleure corrélation mot-concept. De plus, nous introduisons un nouveau jeu de données et un protocole d'évaluation spécialement conçus pour cette nouvelle tâche d'apprentissage de concepts au niveau des objets.
English
Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.
PDF131December 15, 2024