Изображение стоит множества слов: изучение концепций на уровне объектов с помощью обучения на основе мультиконцептных промптов

Аннотация

Textural Inversion, метод обучения через подсказки, изучает единичное вложение для нового "слова", чтобы представлять стиль и внешний вид изображения, что позволяет интегрировать его в естественные языковые предложения для генерации новых синтезированных изображений. Однако идентификация и интеграция нескольких объектно-ориентированных концепций в одной сцене представляет значительные трудности, даже если вложения для отдельных концепций доступны. Это подтверждается нашими эмпирическими тестами. Для решения этой задачи мы представляем фреймворк для обучения через подсказки с несколькими концепциями (Multi-Concept Prompt Learning, MCPL), где одновременно изучаются несколько новых "слов" из одной пары предложение-изображение. Для повышения точности корреляции между словами и концепциями мы предлагаем три метода регуляризации: Attention Masking (AttnMask) для концентрации обучения на релевантных областях; Prompts Contrastive Loss (PromptCL) для разделения вложений разных концепций; и Bind adjective (Bind adj.) для ассоциации новых "слов" с известными словами. Мы оцениваем метод через генерацию изображений, редактирование и визуализацию внимания на разнообразных изображениях. Обширные количественные сравнения показывают, что наш метод способен изучать более семантически разделенные концепции с улучшенной корреляцией между словами и концепциями. Кроме того, мы представляем новый набор данных и протокол оценки, адаптированные для этой новой задачи изучения объектно-ориентированных концепций.

English

Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.

Изображение стоит множества слов: изучение концепций на уровне объектов с помощью обучения на основе мультиконцептных промптов

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

Аннотация

Support