Jina CLIP: Il tuo modello CLIP è anche il tuo strumento di recupero del testo
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
May 30, 2024
Autori: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI
Abstract
Il Contrastive Language-Image Pretraining (CLIP) è ampiamente utilizzato per addestrare modelli ad allineare immagini e testi in uno spazio di embedding comune, mappandoli su vettori di dimensione fissa. Questi modelli sono fondamentali per il recupero di informazioni multimodali e per attività correlate. Tuttavia, i modelli CLIP generalmente ottengono prestazioni inferiori nelle attività esclusivamente testuali rispetto ai modelli specializzati per il testo. Ciò crea inefficienze nei sistemi di recupero delle informazioni che mantengono embedding e modelli separati per attività esclusivamente testuali e multimodali. Proponiamo un nuovo metodo di addestramento contrastivo multi-task per affrontare questo problema, che utilizziamo per addestrare il modello jina-clip-v1, raggiungendo prestazioni all'avanguardia sia nel recupero di testo-immagine che nel recupero di testo-testo.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models
to align images and texts in a common embedding space by mapping them to
fixed-sized vectors. These models are key to multimodal information retrieval
and related tasks. However, CLIP models generally underperform in text-only
tasks compared to specialized text models. This creates inefficiencies for
information retrieval systems that keep separate embeddings and models for
text-only and multimodal tasks. We propose a novel, multi-task contrastive
training method to address this issue, which we use to train the jina-clip-v1
model to achieve the state-of-the-art performance on both text-image and
text-text retrieval tasks.