Изображение стоит множества слов: изучение концепций на уровне объектов с помощью обучения на основе мультиконцептных промптов
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
Авторы: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
Аннотация
Textural Inversion, метод обучения через подсказки, изучает единичное вложение для нового "слова", чтобы представлять стиль и внешний вид изображения, что позволяет интегрировать его в естественные языковые предложения для генерации новых синтезированных изображений. Однако идентификация и интеграция нескольких объектно-ориентированных концепций в одной сцене представляет значительные трудности, даже если вложения для отдельных концепций доступны. Это подтверждается нашими эмпирическими тестами. Для решения этой задачи мы представляем фреймворк для обучения через подсказки с несколькими концепциями (Multi-Concept Prompt Learning, MCPL), где одновременно изучаются несколько новых "слов" из одной пары предложение-изображение. Для повышения точности корреляции между словами и концепциями мы предлагаем три метода регуляризации: Attention Masking (AttnMask) для концентрации обучения на релевантных областях; Prompts Contrastive Loss (PromptCL) для разделения вложений разных концепций; и Bind adjective (Bind adj.) для ассоциации новых "слов" с известными словами. Мы оцениваем метод через генерацию изображений, редактирование и визуализацию внимания на разнообразных изображениях. Обширные количественные сравнения показывают, что наш метод способен изучать более семантически разделенные концепции с улучшенной корреляцией между словами и концепциями. Кроме того, мы представляем новый набор данных и протокол оценки, адаптированные для этой новой задачи изучения объектно-ориентированных концепций.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.