ChatPaper.aiChatPaper

Jina CLIP: Uw CLIP-model is ook uw tekstretriever

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30, 2024
Auteurs: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI

Samenvatting

Contrastive Language-Image Pretraining (CLIP) wordt veel gebruikt om modellen te trainen voor het uitlijnen van afbeeldingen en teksten in een gemeenschappelijke inbeddingsruimte door ze af te beelden op vaste-grootte vectoren. Deze modellen zijn essentieel voor multimodale informatiezoekopdrachten en gerelateerde taken. CLIP-modellen presteren echter over het algemeen minder goed in tekstspecifieke taken in vergelijking met gespecialiseerde tekstmodellen. Dit leidt tot inefficiënties in informatiezoekopdracht-systemen die afzonderlijke inbeddingen en modellen aanhouden voor tekstspecifieke en multimodale taken. Wij stellen een nieuwe, multi-task contrastieve trainingsmethode voor om dit probleem aan te pakken, die we gebruiken om het jina-clip-v1 model te trainen om state-of-the-art prestaties te behalen in zowel tekst-afbeelding als tekst-tekst zoekopdrachten.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks.
PDF371February 8, 2026