SITTA: Un Allineamento Semantico Immagine-Testo per la Generazione di Didascalie Immagini

Abstract

La comprensione testuale e semantica delle immagini è essenziale per generare didascalie appropriate. Tale comprensione richiede il rilevamento degli oggetti, la modellazione delle relazioni tra di essi, una valutazione della semantica della scena e, infine, la rappresentazione delle conoscenze estratte in uno spazio linguistico. Per ottenere capacità linguistiche avanzate garantendo buone corrispondenze tra immagine e linguaggio, i modelli linguistici (LM) preaddestrati sono stati condizionati su modelli multimodali (immagine-testo) preaddestrati che consentono input di immagini. Ciò richiede un allineamento della rappresentazione dell'immagine del modello multimodale con le rappresentazioni linguistiche di un LM generativo. Tuttavia, non è chiaro come trasferire al meglio la semantica rilevata dall'encoder visivo del modello multimodale al LM. Introduciamo due nuovi modi di costruire una mappatura lineare che trasferisce con successo la semantica tra gli spazi di embedding dei due modelli preaddestrati. Il primo allinea lo spazio di embedding dell'encoder linguistico multimodale con lo spazio di embedding del LM preaddestrato tramite corrispondenze di token. Il secondo sfrutta dati aggiuntivi costituiti da coppie immagine-testo per costruire la mappatura direttamente dallo spazio visivo a quello linguistico. Utilizzando le nostre mappature semantiche, sblocchiamo la generazione di didascalie per i LM senza accesso alle informazioni sul gradiente. Utilizzando diverse fonti di dati, otteniamo prestazioni solide nella generazione di didascalie sui dataset MS-COCO e Flickr30k. Anche in presenza di dati limitati, il nostro metodo supera parzialmente le prestazioni di altri concorrenti zero-shot e persino finetuned. I nostri studi di ablazione dimostrano che anche LM con soli 250M di parametri possono generare didascalie decenti utilizzando le nostre mappature semantiche. Il nostro approccio rende la generazione di didascalie più accessibile per istituzioni con risorse computazionali limitate.

English

Textual and semantic comprehension of images is essential for generating proper captions. The comprehension requires detection of objects, modeling of relations between them, an assessment of the semantics of the scene and, finally, representing the extracted knowledge in a language space. To achieve rich language capabilities while ensuring good image-language mappings, pretrained language models (LMs) were conditioned on pretrained multi-modal (image-text) models that allow for image inputs. This requires an alignment of the image representation of the multi-modal model with the language representations of a generative LM. However, it is not clear how to best transfer semantics detected by the vision encoder of the multi-modal model to the LM. We introduce two novel ways of constructing a linear mapping that successfully transfers semantics between the embedding spaces of the two pretrained models. The first aligns the embedding space of the multi-modal language encoder with the embedding space of the pretrained LM via token correspondences. The latter leverages additional data that consists of image-text pairs to construct the mapping directly from vision to language space. Using our semantic mappings, we unlock image captioning for LMs without access to gradient information. By using different sources of data we achieve strong captioning performance on MS-COCO and Flickr30k datasets. Even in the face of limited data, our method partly exceeds the performance of other zero-shot and even finetuned competitors. Our ablation studies show that even LMs at a scale of merely 250M parameters can generate decent captions employing our semantic mappings. Our approach makes image captioning more accessible for institutions with restricted computational resources.

SITTA: Un Allineamento Semantico Immagine-Testo per la Generazione di Didascalie Immagini

SITTA: A Semantic Image-Text Alignment for Image Captioning

Abstract

Support