Gemini Embedding 2: Un modelo nativo de embedding multimodal de Gemini

Resumen

Presentamos Gemini Embedding 2, un modelo de embeddings multimodales nativos que permite representar modalidades de video, audio, imagen y texto en un espacio de representación unificado. Aprovechamos las capacidades multimodales de Gemini para generar embeddings de combinaciones arbitrarias de entradas intercaladas de todas estas modalidades, que se generalizan bien en una amplia variedad de tareas. Mediante la aplicación de aprendizaje contrastivo a gran escala en un esquema de entrenamiento multitarea y multietapa, logramos un rendimiento de vanguardia en puntos de referencia clave de embeddings, incluyendo recuperación unimodal, multimodal y multimodal cruzada en un conjunto diverso de tareas. Demostramos que nuestro modelo de embeddings ofrece un rendimiento sólido (con una puntuación de 62,9 R@1 en MSCOCO, 68,8 NDCG@10 en Vatex, 69,9 en MTEB multilingüe y 84,0 en MTEB Code) en una variedad de tareas, superando el rendimiento de modelos especializados. Estas capacidades unificadas convierten a Gemini Embedding 2 en un candidato prometedor para casos de uso posteriores como RAG, recomendación y búsqueda. Además, su robusto rendimiento zero-shot en campos tan diversos como la astronomía, la biociencia, las bellas artes y las artes culinarias lo establece como una representación altamente fiable y lista para usar, incluso para dominios especializados.

English

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.