Een Afbeelding is Meerdere Woorden Waard: Het Leren van Objectniveau Concepten met Multi-Concept Prompt Learning
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
Auteurs: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
Samenvatting
Textural Inversion, een prompt-leermethode, leert een enkele embedding voor een nieuw "woord" om beeldstijl en uiterlijk te representeren, waardoor het kan worden geïntegreerd in natuurlijke taalzinnen om nieuwe gesynthetiseerde beelden te genereren. Het identificeren en integreren van meerdere objectniveau-concepten binnen één scène vormt echter aanzienlijke uitdagingen, zelfs wanneer embeddings voor individuele concepten bereikbaar zijn. Dit wordt verder bevestigd door onze empirische tests. Om deze uitdaging aan te pakken, introduceren we een raamwerk voor Multi-Concept Prompt Learning (MCPL), waarbij meerdere nieuwe "woorden" gelijktijdig worden geleerd vanuit een enkele zin-beeldpaar. Om de nauwkeurigheid van woord-conceptcorrelatie te verbeteren, stellen we drie regularisatietechnieken voor: Attention Masking (AttnMask) om het leren te concentreren op relevante gebieden; Prompts Contrastive Loss (PromptCL) om de embeddings van verschillende concepten te scheiden; en Bind adjective (Bind adj.) om nieuwe "woorden" te associëren met bekende woorden. We evalueren via beeldgeneratie, -bewerking en aandachtvisualisatie met diverse beelden. Uitgebreide kwantitatieve vergelijkingen tonen aan dat onze methode meer semantisch ontwarde concepten kan leren met een verbeterde woord-conceptcorrelatie. Daarnaast introduceren we een nieuwe dataset en evaluatieprotocol die zijn afgestemd op deze nieuwe taak van het leren van objectniveau-concepten.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.