Un'Immagine Vale Più Parole: Apprendimento di Concetti a Livello di Oggetto attraverso il Prompt Learning Multi-Concetto
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
Autori: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
Abstract
Textural Inversion, un metodo di prompt learning, apprende un singolo embedding per una nuova "parola" per rappresentare lo stile e l'aspetto di un'immagine, consentendone l'integrazione in frasi di linguaggio naturale per generare nuove immagini sintetizzate. Tuttavia, identificare e integrare più concetti a livello di oggetto all'interno di una singola scena presenta sfide significative, anche quando gli embedding per i singoli concetti sono ottenibili. Questo è ulteriormente confermato dai nostri test empirici. Per affrontare questa sfida, introduciamo un framework per il Multi-Concept Prompt Learning (MCPL), in cui più nuove "parole" vengono apprese simultaneamente da una singola coppia frase-immagine. Per migliorare l'accuratezza della correlazione parola-concetto, proponiamo tre tecniche di regolarizzazione: Attention Masking (AttnMask) per concentrare l'apprendimento sulle aree rilevanti; Prompts Contrastive Loss (PromptCL) per separare gli embedding di concetti diversi; e Bind adjective (Bind adj.) per associare nuove "parole" a parole note. Valutiamo il metodo attraverso la generazione di immagini, la modifica e la visualizzazione dell'attenzione con immagini diverse. Estesi confronti quantitativi dimostrano che il nostro metodo può apprendere concetti semanticamente più disaccoppiati con una correlazione parola-concetto migliorata. Inoltre, introduciamo un nuovo dataset e un protocollo di valutazione specificamente progettati per questo nuovo compito di apprendimento di concetti a livello di oggetto.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.