Un'Immagine Vale Più Parole: Apprendimento di Concetti a Livello di Oggetto attraverso il Prompt Learning Multi-Concetto

Abstract

Textural Inversion, un metodo di prompt learning, apprende un singolo embedding per una nuova "parola" per rappresentare lo stile e l'aspetto di un'immagine, consentendone l'integrazione in frasi di linguaggio naturale per generare nuove immagini sintetizzate. Tuttavia, identificare e integrare più concetti a livello di oggetto all'interno di una singola scena presenta sfide significative, anche quando gli embedding per i singoli concetti sono ottenibili. Questo è ulteriormente confermato dai nostri test empirici. Per affrontare questa sfida, introduciamo un framework per il Multi-Concept Prompt Learning (MCPL), in cui più nuove "parole" vengono apprese simultaneamente da una singola coppia frase-immagine. Per migliorare l'accuratezza della correlazione parola-concetto, proponiamo tre tecniche di regolarizzazione: Attention Masking (AttnMask) per concentrare l'apprendimento sulle aree rilevanti; Prompts Contrastive Loss (PromptCL) per separare gli embedding di concetti diversi; e Bind adjective (Bind adj.) per associare nuove "parole" a parole note. Valutiamo il metodo attraverso la generazione di immagini, la modifica e la visualizzazione dell'attenzione con immagini diverse. Estesi confronti quantitativi dimostrano che il nostro metodo può apprendere concetti semanticamente più disaccoppiati con una correlazione parola-concetto migliorata. Inoltre, introduciamo un nuovo dataset e un protocollo di valutazione specificamente progettati per questo nuovo compito di apprendimento di concetti a livello di oggetto.

English

Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.

Un'Immagine Vale Più Parole: Apprendimento di Concetti a Livello di Oggetto attraverso il Prompt Learning Multi-Concetto

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

Abstract

Support