ChatPaper.aiChatPaper

Uma Imagem Vale Múltiplas Palavras: Aprendendo Conceitos em Nível de Objeto Usando Aprendizado de Prompts Multi-Conceito

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

October 18, 2023
Autores: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI

Resumo

A Inversão Textural, um método de aprendizado por prompts, apreende uma incorporação singular para uma nova "palavra" que representa o estilo e a aparência de uma imagem, permitindo que seja integrada em sentenças de linguagem natural para gerar novas imagens sintetizadas. No entanto, identificar e integrar múltiplos conceitos em nível de objeto em uma única cena apresenta desafios significativos, mesmo quando as incorporações para conceitos individuais são alcançáveis. Isso é confirmado por nossos testes empíricos. Para enfrentar esse desafio, introduzimos um framework para Aprendizado de Múltiplos Conceitos por Prompts (MCPL, na sigla em inglês), no qual múltiplas "palavras" novas são aprendidas simultaneamente a partir de um único par sentença-imagem. Para aprimorar a precisão da correlação palavra-conceito, propomos três técnicas de regularização: Mascaramento de Atenção (AttnMask) para concentrar o aprendizado em áreas relevantes; Perda Contrastiva de Prompts (PromptCL) para separar as incorporações de diferentes conceitos; e Adjetivo de Vinculação (Bind adj.) para associar novas "palavras" a palavras conhecidas. Avaliamos por meio de geração de imagens, edição e visualização de atenção com imagens diversas. Comparações quantitativas extensivas demonstram que nosso método pode aprender conceitos semanticamente mais desacoplados com uma correlação palavra-conceito aprimorada. Além disso, introduzimos um novo conjunto de dados e protocolo de avaliação especialmente desenvolvidos para essa nova tarefa de aprendizado de conceitos em nível de objeto.
English
Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.
PDF131February 7, 2026