ChatPaper.aiChatPaper

Jina CLIP: Tu modelo CLIP también es tu buscador de texto

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30, 2024
Autores: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI

Resumen

El Pretrenamiento Contraste Lenguaje-Imagen (CLIP) se utiliza ampliamente para entrenar modelos que alinean imágenes y textos en un espacio de incrustación común, mapeándolos a vectores de tamaño fijo. Estos modelos son fundamentales para la recuperación de información multimodal y tareas relacionadas. Sin embargo, los modelos CLIP generalmente tienen un rendimiento inferior en tareas exclusivas de texto en comparación con modelos especializados en texto. Esto genera ineficiencias en los sistemas de recuperación de información que mantienen incrustaciones y modelos separados para tareas exclusivas de texto y multimodales. Proponemos un método novedoso de entrenamiento contrastivo multitarea para abordar este problema, el cual utilizamos para entrenar el modelo jina-clip-v1, logrando un rendimiento de vanguardia tanto en tareas de recuperación texto-imagen como texto-texto.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks.

Summary

AI-Generated Summary

PDF371December 12, 2024