SITTA: Una Alineación Semántica Imagen-Texto para la Generación de Descripciones de Imágenes
SITTA: A Semantic Image-Text Alignment for Image Captioning
July 10, 2023
Autores: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
cs.AI
Resumen
La comprensión textual y semántica de las imágenes es esencial para generar descripciones adecuadas. Esta comprensión requiere la detección de objetos, el modelado de las relaciones entre ellos, una evaluación de la semántica de la escena y, finalmente, la representación del conocimiento extraído en un espacio lingüístico. Para lograr capacidades lingüísticas ricas mientras se aseguran buenas correspondencias entre imagen y lenguaje, los modelos de lenguaje preentrenados (LM, por sus siglas en inglés) se condicionaron sobre modelos multimodales (imagen-texto) preentrenados que permiten entradas de imágenes. Esto requiere una alineación de la representación de la imagen del modelo multimodal con las representaciones lingüísticas de un LM generativo. Sin embargo, no está claro cómo transferir de la mejor manera la semántica detectada por el codificador visual del modelo multimodal al LM. Introducimos dos formas novedosas de construir un mapeo lineal que transfiere exitosamente la semántica entre los espacios de incrustación de los dos modelos preentrenados. El primero alinea el espacio de incrustación del codificador de lenguaje multimodal con el espacio de incrustación del LM preentrenado mediante correspondencias de tokens. El segundo aprovecha datos adicionales que consisten en pares imagen-texto para construir el mapeo directamente desde el espacio visual al espacio lingüístico. Utilizando nuestros mapeos semánticos, desbloqueamos la generación de descripciones de imágenes para LMs sin acceso a información de gradientes. Al emplear diferentes fuentes de datos, logramos un fuerte rendimiento en la generación de descripciones en los conjuntos de datos MS-COCO y Flickr30k. Incluso frente a datos limitados, nuestro método supera parcialmente el rendimiento de otros competidores en enfoques zero-shot e incluso ajustados. Nuestros estudios de ablación muestran que incluso LMs con apenas 250 millones de parámetros pueden generar descripciones decentes utilizando nuestros mapeos semánticos. Nuestro enfoque hace que la generación de descripciones de imágenes sea más accesible para instituciones con recursos computacionales limitados.
English
Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.