Gemini Embedding 2: Um Modelo de Embedding Multimodal Nativo do Gemini

Resumo

Apresentamos o Gemini Embedding 2, um modelo de embedding multimodal nativo que permite representar modalidades de vídeo, áudio, imagem e texto em um espaço de representação unificado. Aproveitamos as capacidades multimodais do Gemini para produzir embeddings para combinações arbitrárias de entradas intercaladas em todas essas modalidades, que generalizam bem em uma ampla variedade de tarefas. Ao aplicar aprendizado contrastivo em larga escala em um regime de treinamento multiestágio e multitarefa, alcançamos desempenho de estado da arte nos principais benchmarks de embedding, incluindo recuperação unimodal, multimodal e multimodal, abrangendo um conjunto diversificado de tarefas. Mostramos que nosso modelo de embedding apresenta forte desempenho (com pontuação de 62,9 R@1 no MSCOCO, 68,8 NDCG@10 no Vatex, 69,9 no MTEB multilíngue e 84,0 no MTEB Code) em uma variedade de tarefas, superando o desempenho de modelos especializados. Essas capacidades unificadas tornam o Gemini Embedding 2 um candidato promissor para casos de uso downstream, como RAG, recomendação e busca. Além disso, seu desempenho robusto em zero-shot em áreas distintas — da astronomia e biociência às belas-artes e artes culinárias — estabelece-o como uma representação confiável, pronta para uso, mesmo para domínios especializados.

English

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.