ChatPaper.aiChatPaper

Ein Bild ist mehr als tausend Worte: Lernen von Objektebenen-Konzepten durch Multi-Konzept-Prompt-Learning

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

October 18, 2023
Autoren: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI

Zusammenfassung

Textural Inversion, eine Methode des Prompt-Lernens, lernt eine einzelne Einbettung für ein neues "Wort", um Bildstil und -erscheinung darzustellen, wodurch es in natürliche Sprachsätze integriert werden kann, um neu synthetisierte Bilder zu erzeugen. Die Identifizierung und Integration mehrerer objektbezogener Konzepte innerhalb einer Szene stellt jedoch erhebliche Herausforderungen dar, selbst wenn Einbettungen für einzelne Konzepte erreichbar sind. Dies wird durch unsere empirischen Tests weiter bestätigt. Um diese Herausforderung zu bewältigen, führen wir ein Framework für Multi-Concept Prompt Learning (MCPL) ein, bei dem mehrere neue "Wörter" gleichzeitig aus einem einzigen Satz-Bild-Paar gelernt werden. Um die Genauigkeit der Wort-Konzept-Korrelation zu verbessern, schlagen wir drei Regularisierungstechniken vor: Attention Masking (AttnMask), um das Lernen auf relevante Bereiche zu konzentrieren; Prompts Contrastive Loss (PromptCL), um die Einbettungen verschiedener Konzepte zu trennen; und Bind Adjective (Bind adj.), um neue "Wörter" mit bekannten Wörtern zu verknüpfen. Wir evaluieren durch Bildgenerierung, -bearbeitung und Aufmerksamkeitsvisualisierung mit diversen Bildern. Umfangreiche quantitative Vergleiche zeigen, dass unsere Methode semantisch stärker entkoppelte Konzepte mit verbesserter Wort-Konzept-Korrelation lernen kann. Zusätzlich stellen wir einen neuartigen Datensatz und ein Evaluationsprotokoll vor, die speziell für diese neue Aufgabe des Lernens objektbezogener Konzepte entwickelt wurden.
English
Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.
PDF131December 15, 2024