Una Imagen Vale Múltiples Palabras: Aprendizaje de Conceptos a Nivel de Objeto mediante Aprendizaje de Prompts Multi-Concepto

Resumen

Textural Inversion, un método de aprendizaje basado en prompts, aprende una única incrustación para una nueva "palabra" que representa el estilo y la apariencia de una imagen, permitiendo que se integre en oraciones de lenguaje natural para generar imágenes sintetizadas novedosas. Sin embargo, identificar e integrar múltiples conceptos a nivel de objeto dentro de una misma escena presenta desafíos significativos, incluso cuando se pueden obtener incrustaciones para conceptos individuales. Esto se confirma aún más mediante nuestras pruebas empíricas. Para abordar este desafío, presentamos un marco para el Aprendizaje de Prompts Multi-Concepto (MCPL, por sus siglas en inglés), donde múltiples "palabras" nuevas se aprenden simultáneamente a partir de un único par oración-imagen. Para mejorar la precisión de la correlación palabra-concepto, proponemos tres técnicas de regularización: Enmascaramiento de Atención (AttnMask) para concentrar el aprendizaje en áreas relevantes; Pérdida Contrastiva de Prompts (PromptCL) para separar las incrustaciones de diferentes conceptos; y Asociación de Adjetivos (Bind adj.) para vincular nuevas "palabras" con palabras conocidas. Evaluamos mediante generación de imágenes, edición y visualización de atención con imágenes diversas. Comparaciones cuantitativas exhaustivas demuestran que nuestro método puede aprender conceptos más semánticamente desenredados con una correlación palabra-concepto mejorada. Además, presentamos un nuevo conjunto de datos y un protocolo de evaluación diseñados específicamente para esta nueva tarea de aprendizaje de conceptos a nivel de objeto.

English

Textural Inversion, a prompt learning method, learns a singular embedding for a new "word" to represent image style and appearance, allowing it to be integrated into natural language sentences to generate novel synthesised images. However, identifying and integrating multiple object-level concepts within one scene poses significant challenges even when embeddings for individual concepts are attainable. This is further confirmed by our empirical tests. To address this challenge, we introduce a framework for Multi-Concept Prompt Learning (MCPL), where multiple new "words" are simultaneously learned from a single sentence-image pair. To enhance the accuracy of word-concept correlation, we propose three regularisation techniques: Attention Masking (AttnMask) to concentrate learning on relevant areas; Prompts Contrastive Loss (PromptCL) to separate the embeddings of different concepts; and Bind adjective (Bind adj.) to associate new "words" with known words. We evaluate via image generation, editing, and attention visualisation with diverse images. Extensive quantitative comparisons demonstrate that our method can learn more semantically disentangled concepts with enhanced word-concept correlation. Additionally, we introduce a novel dataset and evaluation protocol tailored for this new task of learning object-level concepts.

Una Imagen Vale Múltiples Palabras: Aprendizaje de Conceptos a Nivel de Objeto mediante Aprendizaje de Prompts Multi-Concepto

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning

Resumen

Support