SITTA: Een Semantische Afstemming tussen Beeld en Tekst voor Beeldbeschrijving

Samenvatting

Het tekstueel en semantisch begrijpen van afbeeldingen is essentieel voor het genereren van passende bijschriften. Dit begrip vereist de detectie van objecten, het modelleren van relaties tussen deze objecten, een beoordeling van de semantiek van de scène en, ten slotte, het representeren van de geëxtraheerde kennis in een taalruimte. Om rijke taalvaardigheden te bereiken en tegelijkertijd goede afbeelding-taal-mappingen te garanderen, werden vooraf getrainde taalmodelen (LMs) geconditioneerd op vooraf getrainde multimodale (afbeelding-tekst) modellen die afbeeldingen als invoer toestaan. Dit vereist een afstemming van de afbeeldingsrepresentatie van het multimodale model met de taalrepresentaties van een generatief LM. Het is echter niet duidelijk hoe de semantiek die door de visuele encoder van het multimodale model wordt gedetecteerd, het beste kan worden overgedragen naar het LM. We introduceren twee nieuwe manieren om een lineaire mapping te construeren die met succes semantiek overdraagt tussen de inbeddingsruimtes van de twee vooraf getrainde modellen. De eerste methode stemt de inbeddingsruimte van de multimodale taalencoder af op de inbeddingsruimte van het vooraf getrainde LM via token-correspondenties. De tweede methode maakt gebruik van aanvullende data die bestaat uit afbeelding-tekst-paren om de mapping direct van visuele naar taalruimte te construeren. Door onze semantische mapping te gebruiken, maken we het mogelijk om afbeeldingsbijschriften te genereren met LMs zonder toegang tot gradientinformatie. Door gebruik te maken van verschillende databronnen behalen we sterke prestaties op het gebied van bijschriften op de MS-COCO- en Flickr30k-datasets. Zelfs bij beperkte data overtreft onze methode gedeeltelijk de prestaties van andere zero-shot en zelfs gefinetunede concurrenten. Onze ablatiestudies tonen aan dat zelfs LMs met slechts 250M parameters in staat zijn om goede bijschriften te genereren door gebruik te maken van onze semantische mapping. Onze aanpak maakt het genereren van afbeeldingsbijschriften toegankelijker voor instellingen met beperkte rekenbronnen.

English

Textual and semantic comprehension of images is essential for generating proper captions. The comprehension requires detection of objects, modeling of relations between them, an assessment of the semantics of the scene and, finally, representing the extracted knowledge in a language space. To achieve rich language capabilities while ensuring good image-language mappings, pretrained language models (LMs) were conditioned on pretrained multi-modal (image-text) models that allow for image inputs. This requires an alignment of the image representation of the multi-modal model with the language representations of a generative LM. However, it is not clear how to best transfer semantics detected by the vision encoder of the multi-modal model to the LM. We introduce two novel ways of constructing a linear mapping that successfully transfers semantics between the embedding spaces of the two pretrained models. The first aligns the embedding space of the multi-modal language encoder with the embedding space of the pretrained LM via token correspondences. The latter leverages additional data that consists of image-text pairs to construct the mapping directly from vision to language space. Using our semantic mappings, we unlock image captioning for LMs without access to gradient information. By using different sources of data we achieve strong captioning performance on MS-COCO and Flickr30k datasets. Even in the face of limited data, our method partly exceeds the performance of other zero-shot and even finetuned competitors. Our ablation studies show that even LMs at a scale of merely 250M parameters can generate decent captions employing our semantic mappings. Our approach makes image captioning more accessible for institutions with restricted computational resources.

SITTA: Een Semantische Afstemming tussen Beeld en Tekst voor Beeldbeschrijving

SITTA: A Semantic Image-Text Alignment for Image Captioning

Samenvatting

Support