SITTA: Um Alinhamento Semântico entre Imagem e Texto para Geração de Legendas de Imagens
SITTA: A Semantic Image-Text Alignment for Image Captioning
July 10, 2023
Autores: Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter
cs.AI
Resumo
A compreensão textual e semântica de imagens é essencial para a geração de legendas adequadas. Essa compreensão requer a detecção de objetos, a modelagem das relações entre eles, uma avaliação da semântica da cena e, finalmente, a representação do conhecimento extraído em um espaço linguístico. Para alcançar capacidades linguísticas ricas enquanto garante bons mapeamentos entre imagem e linguagem, modelos de linguagem (LMs) pré-treinados foram condicionados em modelos multimodais (imagem-texto) pré-treinados que permitem entradas de imagem. Isso requer um alinhamento da representação da imagem do modelo multimodal com as representações linguísticas de um LM generativo. No entanto, não está claro como transferir da melhor forma a semântica detectada pelo codificador de visão do modelo multimodal para o LM. Introduzimos duas novas maneiras de construir um mapeamento linear que transfere com sucesso a semântica entre os espaços de incorporação dos dois modelos pré-treinados. O primeiro alinha o espaço de incorporação do codificador de linguagem multimodal com o espaço de incorporação do LM pré-treinado por meio de correspondências de tokens. O último aproveita dados adicionais que consistem em pares imagem-texto para construir o mapeamento diretamente do espaço de visão para o espaço de linguagem. Usando nossos mapeamentos semânticos, desbloqueamos a geração de legendas para LMs sem acesso a informações de gradiente. Ao utilizar diferentes fontes de dados, alcançamos um forte desempenho na geração de legendas nos conjuntos de dados MS-COCO e Flickr30k. Mesmo diante de dados limitados, nosso método supera parcialmente o desempenho de outros concorrentes zero-shot e até mesmo ajustados. Nossos estudos de ablação mostram que mesmo LMs com apenas 250M de parâmetros podem gerar legendas decentes empregando nossos mapeamentos semânticos. Nossa abordagem torna a geração de legendas mais acessível para instituições com recursos computacionais restritos.
English
Textual and semantic comprehension of images is essential for generating
proper captions. The comprehension requires detection of objects, modeling of
relations between them, an assessment of the semantics of the scene and,
finally, representing the extracted knowledge in a language space. To achieve
rich language capabilities while ensuring good image-language mappings,
pretrained language models (LMs) were conditioned on pretrained multi-modal
(image-text) models that allow for image inputs. This requires an alignment of
the image representation of the multi-modal model with the language
representations of a generative LM. However, it is not clear how to best
transfer semantics detected by the vision encoder of the multi-modal model to
the LM. We introduce two novel ways of constructing a linear mapping that
successfully transfers semantics between the embedding spaces of the two
pretrained models. The first aligns the embedding space of the multi-modal
language encoder with the embedding space of the pretrained LM via token
correspondences. The latter leverages additional data that consists of
image-text pairs to construct the mapping directly from vision to language
space. Using our semantic mappings, we unlock image captioning for LMs without
access to gradient information. By using different sources of data we achieve
strong captioning performance on MS-COCO and Flickr30k datasets. Even in the
face of limited data, our method partly exceeds the performance of other
zero-shot and even finetuned competitors. Our ablation studies show that even
LMs at a scale of merely 250M parameters can generate decent captions employing
our semantic mappings. Our approach makes image captioning more accessible for
institutions with restricted computational resources.