Gemini Embedding: Geminiからの汎用可能な埋め込み表現
Gemini Embedding: Generalizable Embeddings from Gemini
March 10, 2025
著者: Jinhyuk Lee, Feiyang Chen, Sahil Dua, Daniel Cer, Madhuri Shanbhogue, Iftekhar Naim, Gustavo Hernández Ábrego, Zhe Li, Kaifeng Chen, Henrique Schechter Vera, Xiaoqi Ren, Shanfeng Zhang, Daniel Salz, Michael Boratko, Jay Han, Blair Chen, Shuo Huang, Vikram Rao, Paul Suganthan, Feng Han, Andreas Doumanoglou, Nithi Gupta, Fedor Moiseev, Cathy Yip, Aashi Jain, Simon Baumgartner, Shahrokh Shahi, Frank Palma Gomez, Sandeep Mariserla, Min Choi, Parashar Shah, Sonam Goenka, Ke Chen, Ye Xia, Koert Chen, Sai Meher Karthik Duddu, Yichang Chen, Trevor Walker, Wenlei Zhou, Rakesh Ghiya, Zach Gleicher, Karan Gill, Zhe Dong, Mojtaba Seyedhosseini, Yunhsuan Sung, Raphael Hoffmann, Tom Duerig
cs.AI
要旨
本報告では、Googleの最先端大規模言語モデルであるGeminiの能力を活用した、最新の埋め込みモデル「Gemini Embedding」を紹介します。Geminiが持つ多言語理解とコード理解の能力を活かし、Gemini Embeddingは多数の言語とテキストモダリティにわたるテキストに対して、高い汎用性を持つ埋め込みを生成します。Gemini Embeddingによって生成された表現は事前計算が可能で、分類、類似性判定、クラスタリング、ランキング、検索など、さまざまな下流タスクに適用できます。250以上の言語にわたる100以上のタスクを含むMassive Multilingual Text Embedding Benchmark(MMTEB)で評価した結果、Gemini Embeddingは従来の最先端モデルを大幅に上回り、埋め込み品質の大幅な向上を示しました。MMTEBの多言語、英語、コードのベンチマークにおいて最先端の性能を達成し、当社の統一モデルは幅広いタスクにおいて強力な能力を発揮し、特定ドメインに特化したモデルを凌駕しています。
English
In this report, we introduce Gemini Embedding, a state-of-the-art embedding
model leveraging the power of Gemini, Google's most capable large language
model. Capitalizing on Gemini's inherent multilingual and code understanding
capabilities, Gemini Embedding produces highly generalizable embeddings for
text spanning numerous languages and textual modalities. The representations
generated by Gemini Embedding can be precomputed and applied to a variety of
downstream tasks including classification, similarity, clustering, ranking, and
retrieval. Evaluated on the Massive Multilingual Text Embedding Benchmark
(MMTEB), which includes over one hundred tasks across 250+ languages, Gemini
Embedding substantially outperforms prior state-of-the-art models,
demonstrating considerable improvements in embedding quality. Achieving
state-of-the-art performance across MMTEB's multilingual, English, and code
benchmarks, our unified model demonstrates strong capabilities across a broad
selection of tasks and surpasses specialized domain-specific models.Summary
AI-Generated Summary