SITTA: Um Alinhamento Semântico entre Imagem e Texto para Geração de Legendas de Imagens

Resumo

A compreensão textual e semântica de imagens é essencial para a geração de legendas adequadas. Essa compreensão requer a detecção de objetos, a modelagem das relações entre eles, uma avaliação da semântica da cena e, finalmente, a representação do conhecimento extraído em um espaço linguístico. Para alcançar capacidades linguísticas ricas enquanto garante bons mapeamentos entre imagem e linguagem, modelos de linguagem (LMs) pré-treinados foram condicionados em modelos multimodais (imagem-texto) pré-treinados que permitem entradas de imagem. Isso requer um alinhamento da representação da imagem do modelo multimodal com as representações linguísticas de um LM generativo. No entanto, não está claro como transferir da melhor forma a semântica detectada pelo codificador de visão do modelo multimodal para o LM. Introduzimos duas novas maneiras de construir um mapeamento linear que transfere com sucesso a semântica entre os espaços de incorporação dos dois modelos pré-treinados. O primeiro alinha o espaço de incorporação do codificador de linguagem multimodal com o espaço de incorporação do LM pré-treinado por meio de correspondências de tokens. O último aproveita dados adicionais que consistem em pares imagem-texto para construir o mapeamento diretamente do espaço de visão para o espaço de linguagem. Usando nossos mapeamentos semânticos, desbloqueamos a geração de legendas para LMs sem acesso a informações de gradiente. Ao utilizar diferentes fontes de dados, alcançamos um forte desempenho na geração de legendas nos conjuntos de dados MS-COCO e Flickr30k. Mesmo diante de dados limitados, nosso método supera parcialmente o desempenho de outros concorrentes zero-shot e até mesmo ajustados. Nossos estudos de ablação mostram que mesmo LMs com apenas 250M de parâmetros podem gerar legendas decentes empregando nossos mapeamentos semânticos. Nossa abordagem torna a geração de legendas mais acessível para instituições com recursos computacionais restritos.

English

Textual and semantic comprehension of images is essential for generating proper captions. The comprehension requires detection of objects, modeling of relations between them, an assessment of the semantics of the scene and, finally, representing the extracted knowledge in a language space. To achieve rich language capabilities while ensuring good image-language mappings, pretrained language models (LMs) were conditioned on pretrained multi-modal (image-text) models that allow for image inputs. This requires an alignment of the image representation of the multi-modal model with the language representations of a generative LM. However, it is not clear how to best transfer semantics detected by the vision encoder of the multi-modal model to the LM. We introduce two novel ways of constructing a linear mapping that successfully transfers semantics between the embedding spaces of the two pretrained models. The first aligns the embedding space of the multi-modal language encoder with the embedding space of the pretrained LM via token correspondences. The latter leverages additional data that consists of image-text pairs to construct the mapping directly from vision to language space. Using our semantic mappings, we unlock image captioning for LMs without access to gradient information. By using different sources of data we achieve strong captioning performance on MS-COCO and Flickr30k datasets. Even in the face of limited data, our method partly exceeds the performance of other zero-shot and even finetuned competitors. Our ablation studies show that even LMs at a scale of merely 250M parameters can generate decent captions employing our semantic mappings. Our approach makes image captioning more accessible for institutions with restricted computational resources.

SITTA: Um Alinhamento Semântico entre Imagem e Texto para Geração de Legendas de Imagens

SITTA: A Semantic Image-Text Alignment for Image Captioning

Resumo

Support