Jina CLIP : Votre modèle CLIP est aussi votre moteur de recherche textuel
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
May 30, 2024
papers.authors: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI
papers.abstract
Le pré-entraînement contrastif texte-image (CLIP) est largement utilisé pour entraîner des modèles à aligner des images et des textes dans un espace d'embedding commun en les projetant sur des vecteurs de taille fixe. Ces modèles sont essentiels pour la recherche d'information multimodale et les tâches associées. Cependant, les modèles CLIP obtiennent généralement des performances inférieures dans les tâches textuelles pures par rapport aux modèles spécialisés en texte. Cela engendre des inefficacités pour les systèmes de recherche d'information qui maintiennent des embeddings et des modèles distincts pour les tâches textuelles pures et multimodales. Nous proposons une nouvelle méthode d'entraînement contrastif multi-tâches pour résoudre ce problème, que nous utilisons pour entraîner le modèle jina-clip-v1 afin d'atteindre des performances de pointe à la fois dans les tâches de recherche texte-image et texte-texte.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models
to align images and texts in a common embedding space by mapping them to
fixed-sized vectors. These models are key to multimodal information retrieval
and related tasks. However, CLIP models generally underperform in text-only
tasks compared to specialized text models. This creates inefficiencies for
information retrieval systems that keep separate embeddings and models for
text-only and multimodal tasks. We propose a novel, multi-task contrastive
training method to address this issue, which we use to train the jina-clip-v1
model to achieve the state-of-the-art performance on both text-image and
text-text retrieval tasks.