Jina CLIP: Seu Modelo CLIP Também é um Recuperador de Texto
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
May 30, 2024
Autores: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI
Resumo
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) é amplamente utilizado para treinar modelos a alinhar imagens e textos em um espaço de incorporação comum, mapeando-os para vetores de tamanho fixo. Esses modelos são fundamentais para a recuperação de informações multimodais e tarefas relacionadas. No entanto, os modelos CLIP geralmente têm desempenho inferior em tarefas exclusivamente textuais em comparação com modelos especializados em texto. Isso cria ineficiências para sistemas de recuperação de informações que mantêm incorporações e modelos separados para tarefas exclusivamente textuais e multimodais. Propomos um novo método de treinamento contrastivo multitarefa para abordar essa questão, que utilizamos para treinar o modelo jina-clip-v1, alcançando desempenho de ponta tanto em tarefas de recuperação de texto-imagem quanto de texto-texto.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models
to align images and texts in a common embedding space by mapping them to
fixed-sized vectors. These models are key to multimodal information retrieval
and related tasks. However, CLIP models generally underperform in text-only
tasks compared to specialized text models. This creates inefficiencies for
information retrieval systems that keep separate embeddings and models for
text-only and multimodal tasks. We propose a novel, multi-task contrastive
training method to address this issue, which we use to train the jina-clip-v1
model to achieve the state-of-the-art performance on both text-image and
text-text retrieval tasks.