Gemini Embedding: Generaliseerbare Embeddings van Gemini

Samenvatting

In dit rapport introduceren we Gemini Embedding, een state-of-the-art embeddingmodel dat gebruikmaakt van de kracht van Gemini, het meest geavanceerde grote taalmodel van Google. Door gebruik te maken van de inherente meertalige en codebegripcapaciteiten van Gemini, produceert Gemini Embedding zeer generaliseerbare embeddings voor tekst die zich uitstrekt over talrijke talen en tekstuele modaliteiten. De representaties die door Gemini Embedding worden gegenereerd, kunnen vooraf worden berekend en toegepast op een verscheidenheid aan downstreamtaken, waaronder classificatie, gelijkenis, clustering, rangschikking en retrieval. Geëvalueerd op de Massive Multilingual Text Embedding Benchmark (MMTEB), die meer dan honderd taken omvat in meer dan 250 talen, presteert Gemini Embedding aanzienlijk beter dan eerdere state-of-the-art modellen, wat aanzienlijke verbeteringen in de kwaliteit van de embeddings aantoont. Door state-of-the-art prestaties te behalen op de meertalige, Engelse en codebenchmarks van MMTEB, toont ons unificatiemodel sterke capaciteiten over een breed scala aan taken en overtreft het gespecialiseerde domeinspecifieke modellen.

English

In this report, we introduce Gemini Embedding, a state-of-the-art embedding model leveraging the power of Gemini, Google's most capable large language model. Capitalizing on Gemini's inherent multilingual and code understanding capabilities, Gemini Embedding produces highly generalizable embeddings for text spanning numerous languages and textual modalities. The representations generated by Gemini Embedding can be precomputed and applied to a variety of downstream tasks including classification, similarity, clustering, ranking, and retrieval. Evaluated on the Massive Multilingual Text Embedding Benchmark (MMTEB), which includes over one hundred tasks across 250+ languages, Gemini Embedding substantially outperforms prior state-of-the-art models, demonstrating considerable improvements in embedding quality. Achieving state-of-the-art performance across MMTEB's multilingual, English, and code benchmarks, our unified model demonstrates strong capabilities across a broad selection of tasks and surpasses specialized domain-specific models.

Gemini Embedding: Generaliseerbare Embeddings van Gemini

Gemini Embedding: Generalizable Embeddings from Gemini

Samenvatting

Support