Jina CLIP : Votre modĂšle CLIP est aussi votre moteur de recherche textuelJina CLIP: Your CLIP Model Is Also Your Text Retriever
Le pré-entraßnement contrastif texte-image (CLIP) est largement utilisé pour entraßner des modÚles à aligner des images et des textes dans un espace d'embedding commun en les projetant sur des vecteurs de taille fixe. Ces modÚles sont essentiels pour la recherche d'information multimodale et les tùches associées. Cependant, les modÚles CLIP obtiennent généralement des performances inférieures dans les tùches textuelles pures par rapport aux modÚles spécialisés en texte. Cela engendre des inefficacités pour les systÚmes de recherche d'information qui maintiennent des embeddings et des modÚles distincts pour les tùches textuelles pures et multimodales. Nous proposons une nouvelle méthode d'entraßnement contrastif multi-tùches pour résoudre ce problÚme, que nous utilisons pour entraßner le modÚle jina-clip-v1 afin d'atteindre des performances de pointe à la fois dans les tùches de recherche texte-image et texte-texte.