SITTA: Un Allineamento Semantico Immagine-Testo per la Generazione di Didascalie Immagini
SITTA: A Semantic Image-Text Alignment for Image Captioning
July 10, 2023
Autori: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
cs.AI
Abstract
La comprensione testuale e semantica delle immagini è essenziale per generare didascalie appropriate. Tale comprensione richiede il rilevamento degli oggetti, la modellazione delle relazioni tra di essi, una valutazione della semantica della scena e, infine, la rappresentazione delle conoscenze estratte in uno spazio linguistico. Per ottenere capacità linguistiche avanzate garantendo buone corrispondenze tra immagine e linguaggio, i modelli linguistici (LM) preaddestrati sono stati condizionati su modelli multimodali (immagine-testo) preaddestrati che consentono input di immagini. Ciò richiede un allineamento della rappresentazione dell'immagine del modello multimodale con le rappresentazioni linguistiche di un LM generativo. Tuttavia, non è chiaro come trasferire al meglio la semantica rilevata dall'encoder visivo del modello multimodale al LM. Introduciamo due nuovi modi di costruire una mappatura lineare che trasferisce con successo la semantica tra gli spazi di embedding dei due modelli preaddestrati. Il primo allinea lo spazio di embedding dell'encoder linguistico multimodale con lo spazio di embedding del LM preaddestrato tramite corrispondenze di token. Il secondo sfrutta dati aggiuntivi costituiti da coppie immagine-testo per costruire la mappatura direttamente dallo spazio visivo a quello linguistico. Utilizzando le nostre mappature semantiche, sblocchiamo la generazione di didascalie per i LM senza accesso alle informazioni sul gradiente. Utilizzando diverse fonti di dati, otteniamo prestazioni solide nella generazione di didascalie sui dataset MS-COCO e Flickr30k. Anche in presenza di dati limitati, il nostro metodo supera parzialmente le prestazioni di altri concorrenti zero-shot e persino finetuned. I nostri studi di ablazione dimostrano che anche LM con soli 250M di parametri possono generare didascalie decenti utilizzando le nostre mappature semantiche. Il nostro approccio rende la generazione di didascalie più accessibile per istituzioni con risorse computazionali limitate.
English
Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.