Una Imagen Vale Múltiples Palabras: Aprendizaje de Conceptos a Nivel de Objeto mediante Aprendizaje de Prompts Multi-Concepto
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
October 18, 2023
Autores: Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
cs.AI
Resumen
Textural Inversion, un método de aprendizaje basado en prompts, aprende una única incrustación para una nueva "palabra" que representa el estilo y la apariencia de una imagen, permitiendo que se integre en oraciones de lenguaje natural para generar imágenes sintetizadas novedosas. Sin embargo, identificar e integrar múltiples conceptos a nivel de objeto dentro de una misma escena presenta desafíos significativos, incluso cuando se pueden obtener incrustaciones para conceptos individuales. Esto se confirma aún más mediante nuestras pruebas empíricas. Para abordar este desafío, presentamos un marco para el Aprendizaje de Prompts Multi-Concepto (MCPL, por sus siglas en inglés), donde múltiples "palabras" nuevas se aprenden simultáneamente a partir de un único par oración-imagen. Para mejorar la precisión de la correlación palabra-concepto, proponemos tres técnicas de regularización: Enmascaramiento de Atención (AttnMask) para concentrar el aprendizaje en áreas relevantes; Pérdida Contrastiva de Prompts (PromptCL) para separar las incrustaciones de diferentes conceptos; y Asociación de Adjetivos (Bind adj.) para vincular nuevas "palabras" con palabras conocidas. Evaluamos mediante generación de imágenes, edición y visualización de atención con imágenes diversas. Comparaciones cuantitativas exhaustivas demuestran que nuestro método puede aprender conceptos más semánticamente desenredados con una correlación palabra-concepto mejorada. Además, presentamos un nuevo conjunto de datos y un protocolo de evaluación diseñados específicamente para esta nueva tarea de aprendizaje de conceptos a nivel de objeto.
English
Textural Inversion, a prompt learning method, learns a singular embedding for
a new "word" to represent image style and appearance, allowing it to be
integrated into natural language sentences to generate novel synthesised
images. However, identifying and integrating multiple object-level concepts
within one scene poses significant challenges even when embeddings for
individual concepts are attainable. This is further confirmed by our empirical
tests. To address this challenge, we introduce a framework for Multi-Concept
Prompt Learning (MCPL), where multiple new "words" are simultaneously learned
from a single sentence-image pair. To enhance the accuracy of word-concept
correlation, we propose three regularisation techniques: Attention Masking
(AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss
(PromptCL) to separate the embeddings of different concepts; and Bind adjective
(Bind adj.) to associate new "words" with known words. We evaluate via image
generation, editing, and attention visualisation with diverse images. Extensive
quantitative comparisons demonstrate that our method can learn more
semantically disentangled concepts with enhanced word-concept correlation.
Additionally, we introduce a novel dataset and evaluation protocol tailored for
this new task of learning object-level concepts.