SITTA: Eine semantische Bild-Text-Ausrichtung für die Bildbeschreibung
SITTA: A Semantic Image-Text Alignment for Image Captioning
July 10, 2023
Autoren: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
cs.AI
Zusammenfassung
Das textuelle und semantische Verständnis von Bildern ist entscheidend für die Generierung geeigneter Bildbeschreibungen. Dieses Verständnis erfordert die Erkennung von Objekten, die Modellierung der Beziehungen zwischen ihnen, eine Bewertung der Semantik der Szene und schließlich die Darstellung des extrahierten Wissens in einem Sprachraum. Um umfangreiche Sprachfähigkeiten zu erreichen und gleichzeitig gute Bild-Sprach-Zuordnungen zu gewährleisten, wurden vortrainierte Sprachmodelle (LMs) auf vortrainierte multimodale (Bild-Text-)Modelle konditioniert, die Bildinputs ermöglichen. Dies erfordert eine Ausrichtung der Bildrepräsentation des multimodalen Modells mit den Sprachrepräsentationen eines generativen LMs. Es ist jedoch unklar, wie die vom Vision-Encoder des multimodalen Modells erkannte Semantik am besten auf das LM übertragen werden kann. Wir führen zwei neuartige Methoden zur Konstruktion einer linearen Abbildung ein, die erfolgreich Semantik zwischen den Einbettungsräumen der beiden vortrainierten Modelle überträgt. Die erste Methode richtet den Einbettungsraum des multimodalen Sprach-Encoders über Token-Korrespondenzen mit dem Einbettungsraum des vortrainierten LMs aus. Die zweite Methode nutzt zusätzliche Daten, die aus Bild-Text-Paaren bestehen, um die Abbildung direkt vom Bild- in den Sprachraum zu konstruieren. Durch unsere semantischen Abbildungen ermöglichen wir die Bildbeschreibung für LMs ohne Zugriff auf Gradienteninformationen. Durch die Verwendung verschiedener Datenquellen erreichen wir eine starke Leistung bei der Bildbeschreibung auf den MS-COCO- und Flickr30k-Datensätzen. Selbst bei begrenzten Daten übertrifft unsere Methode teilweise die Leistung anderer Zero-Shot- und sogar feinabgestimmter Konkurrenten. Unsere Ablationsstudien zeigen, dass selbst LMs mit lediglich 250M Parametern mit unseren semantischen Abbildungen anständige Bildbeschreibungen generieren können. Unser Ansatz macht die Bildbeschreibung für Institutionen mit eingeschränkten Rechenressourcen zugänglicher.
English
Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.