Jina CLIP: Tu modelo CLIP también es tu buscador de textoJina CLIP: Your CLIP Model Is Also Your Text Retriever
El Pretrenamiento Contraste Lenguaje-Imagen (CLIP) se utiliza ampliamente para entrenar modelos que alinean imágenes y textos en un espacio de incrustación común, mapeándolos a vectores de tamaño fijo. Estos modelos son fundamentales para la recuperación de información multimodal y tareas relacionadas. Sin embargo, los modelos CLIP generalmente tienen un rendimiento inferior en tareas exclusivas de texto en comparación con modelos especializados en texto. Esto genera ineficiencias en los sistemas de recuperación de información que mantienen incrustaciones y modelos separados para tareas exclusivas de texto y multimodales. Proponemos un método novedoso de entrenamiento contrastivo multitarea para abordar este problema, el cual utilizamos para entrenar el modelo jina-clip-v1, logrando un rendimiento de vanguardia tanto en tareas de recuperación texto-imagen como texto-texto.