Jina CLIP: Ihr CLIP-Modell ist auch Ihr Textabrufgerät.
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
May 30, 2024
Autoren: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI
Zusammenfassung
Der Kontrastive Sprach-Bild-Vorabtrainingsansatz (CLIP) wird weit verbreitet eingesetzt, um Modelle zu trainieren, die Bilder und Texte in einem gemeinsamen Einbettungsraum ausrichten, indem sie sie auf Vektoren fester Größe abbilden. Diese Modelle sind entscheidend für die multimodale Informationsgewinnung und verwandte Aufgaben. Allerdings schneiden CLIP-Modelle im Allgemeinen bei reinen Textaufgaben im Vergleich zu spezialisierten Textmodellen schlechter ab. Dies führt zu Ineffizienzen bei Informationssuchsystemen, die getrennte Einbettungen und Modelle für reine Text- und multimodale Aufgaben verwenden. Wir schlagen eine neuartige, multitask-Kontrastiv-Trainingsmethode vor, um dieses Problem anzugehen, die wir verwenden, um das jina-clip-v1-Modell zu trainieren und damit die Leistung auf dem neuesten Stand der Technik sowohl bei Text-Bild- als auch bei Text-Text-Abrufaufgaben zu erzielen.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models
to align images and texts in a common embedding space by mapping them to
fixed-sized vectors. These models are key to multimodal information retrieval
and related tasks. However, CLIP models generally underperform in text-only
tasks compared to specialized text models. This creates inefficiencies for
information retrieval systems that keep separate embeddings and models for
text-only and multimodal tasks. We propose a novel, multi-task contrastive
training method to address this issue, which we use to train the jina-clip-v1
model to achieve the state-of-the-art performance on both text-image and
text-text retrieval tasks.Summary
AI-Generated Summary