Jina CLIP: Uw CLIP-model is ook uw tekstretriever

Samenvatting

Contrastive Language-Image Pretraining (CLIP) wordt veel gebruikt om modellen te trainen voor het uitlijnen van afbeeldingen en teksten in een gemeenschappelijke inbeddingsruimte door ze af te beelden op vaste-grootte vectoren. Deze modellen zijn essentieel voor multimodale informatiezoekopdrachten en gerelateerde taken. CLIP-modellen presteren echter over het algemeen minder goed in tekstspecifieke taken in vergelijking met gespecialiseerde tekstmodellen. Dit leidt tot inefficiënties in informatiezoekopdracht-systemen die afzonderlijke inbeddingen en modellen aanhouden voor tekstspecifieke en multimodale taken. Wij stellen een nieuwe, multi-task contrastieve trainingsmethode voor om dit probleem aan te pakken, die we gebruiken om het jina-clip-v1 model te trainen om state-of-the-art prestaties te behalen in zowel tekst-afbeelding als tekst-tekst zoekopdrachten.

English

Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks.

Jina CLIP: Uw CLIP-model is ook uw tekstretriever

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

Samenvatting

Support