ChatPaper.aiChatPaper

Een Afbeelding is Meerdere Woorden Waard: Het Leren van Objectniveau Concepten met Multi-Concept Prompt Learning

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

October 18, 2023
Auteurs: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI

Samenvatting

Textural Inversion, een prompt-leermethode, leert een enkele embedding voor een nieuw "woord" om beeldstijl en uiterlijk te representeren, waardoor het kan worden geïntegreerd in natuurlijke taalzinnen om nieuwe gesynthetiseerde beelden te genereren. Het identificeren en integreren van meerdere objectniveau-concepten binnen één scène vormt echter aanzienlijke uitdagingen, zelfs wanneer embeddings voor individuele concepten bereikbaar zijn. Dit wordt verder bevestigd door onze empirische tests. Om deze uitdaging aan te pakken, introduceren we een raamwerk voor Multi-Concept Prompt Learning (MCPL), waarbij meerdere nieuwe "woorden" gelijktijdig worden geleerd vanuit een enkele zin-beeldpaar. Om de nauwkeurigheid van woord-conceptcorrelatie te verbeteren, stellen we drie regularisatietechnieken voor: Attention Masking (AttnMask) om het leren te concentreren op relevante gebieden; Prompts Contrastive Loss (PromptCL) om de embeddings van verschillende concepten te scheiden; en Bind adjective (Bind adj.) om nieuwe "woorden" te associëren met bekende woorden. We evalueren via beeldgeneratie, -bewerking en aandachtvisualisatie met diverse beelden. Uitgebreide kwantitatieve vergelijkingen tonen aan dat onze methode meer semantisch ontwarde concepten kan leren met een verbeterde woord-conceptcorrelatie. Daarnaast introduceren we een nieuwe dataset en evaluatieprotocol die zijn afgestemd op deze nieuwe taak van het leren van objectniveau-concepten.
English
Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.
PDF131February 7, 2026