Ein Bild ist mehr als tausend Worte: Lernen von Objektebenen-Konzepten durch Multi-Konzept-Prompt-Learning
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
Autoren: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
Zusammenfassung
Textural Inversion, eine Methode des Prompt-Lernens, lernt eine einzelne Einbettung für ein neues "Wort", um Bildstil und -erscheinung darzustellen, wodurch es in natürliche Sprachsätze integriert werden kann, um neu synthetisierte Bilder zu erzeugen. Die Identifizierung und Integration mehrerer objektbezogener Konzepte innerhalb einer Szene stellt jedoch erhebliche Herausforderungen dar, selbst wenn Einbettungen für einzelne Konzepte erreichbar sind. Dies wird durch unsere empirischen Tests weiter bestätigt. Um diese Herausforderung zu bewältigen, führen wir ein Framework für Multi-Concept Prompt Learning (MCPL) ein, bei dem mehrere neue "Wörter" gleichzeitig aus einem einzigen Satz-Bild-Paar gelernt werden. Um die Genauigkeit der Wort-Konzept-Korrelation zu verbessern, schlagen wir drei Regularisierungstechniken vor: Attention Masking (AttnMask), um das Lernen auf relevante Bereiche zu konzentrieren; Prompts Contrastive Loss (PromptCL), um die Einbettungen verschiedener Konzepte zu trennen; und Bind Adjective (Bind adj.), um neue "Wörter" mit bekannten Wörtern zu verknüpfen. Wir evaluieren durch Bildgenerierung, -bearbeitung und Aufmerksamkeitsvisualisierung mit diversen Bildern. Umfangreiche quantitative Vergleiche zeigen, dass unsere Methode semantisch stärker entkoppelte Konzepte mit verbesserter Wort-Konzept-Korrelation lernen kann. Zusätzlich stellen wir einen neuartigen Datensatz und ein Evaluationsprotokoll vor, die speziell für diese neue Aufgabe des Lernens objektbezogener Konzepte entwickelt wurden.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.