Gemini Embedding 2 : Un modèle d'embedding multimodal natif de Gemini

Résumé

Nous présentons Gemini Embedding 2, un modèle d’intégration multimodal natif qui permet d’intégrer des modalités vidéo, audio, image et texte dans un espace de représentation unifié. Nous exploitons les capacités multimodales de Gemini pour produire des embeddings pour des combinaisons arbitraires d’entrées entrelacées dans toutes ces modalités, qui se généralisent bien à une grande variété de tâches. En appliquant un apprentissage contrastif à grande échelle dans un cadre d’entraînement multi-tâches et multi-étapes, nous atteignons des performances de pointe sur des benchmarks d’embedding clés, notamment en recherche unimo-dale, cross-modale et multimodale, couvrant un ensemble diversifié de tâches. Nous montrons que notre modèle d’intégration démontre des performances robustes (avec un score de 62,9 R@1 sur MSCOCO, 68,8 NDCG@10 sur Vatex, 69,9 sur MTEB multilingue et 84,0 sur MTEB Code) sur une variété de tâches, dépassant les performances de modèles spécialisés. Ces capacités unifiées font de Gemini Embedding 2 un candidat prometteur pour des cas d’usage en aval tels que le RAG, la recommandation et la recherche. De plus, ses performances robustes en zero-shot dans des domaines distincts – de l’astronomie et la biologie aux beaux-arts et aux arts culinaires – en font une représentation prête à l’emploi hautement fiable, même pour des domaines spécialisés.

English

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.