제미니 임베딩: 제미니에서 추출한 일반화 가능한 임베딩
Gemini Embedding: Generalizable Embeddings from Gemini
March 10, 2025
저자: Jinhyuk Lee, Feiyang Chen, Sahil Dua, Daniel Cer, Madhuri Shanbhogue, Iftekhar Naim, Gustavo Hernández Ábrego, Zhe Li, Kaifeng Chen, Henrique Schechter Vera, Xiaoqi Ren, Shanfeng Zhang, Daniel Salz, Michael Boratko, Jay Han, Blair Chen, Shuo Huang, Vikram Rao, Paul Suganthan, Feng Han, Andreas Doumanoglou, Nithi Gupta, Fedor Moiseev, Cathy Yip, Aashi Jain, Simon Baumgartner, Shahrokh Shahi, Frank Palma Gomez, Sandeep Mariserla, Min Choi, Parashar Shah, Sonam Goenka, Ke Chen, Ye Xia, Koert Chen, Sai Meher Karthik Duddu, Yichang Chen, Trevor Walker, Wenlei Zhou, Rakesh Ghiya, Zach Gleicher, Karan Gill, Zhe Dong, Mojtaba Seyedhosseini, Yunhsuan Sung, Raphael Hoffmann, Tom Duerig
cs.AI
초록
본 보고서에서는 Google의 가장 강력한 대형 언어 모델인 Gemini의 힘을 활용한 최첨단 임베딩 모델인 Gemini Embedding을 소개합니다. Gemini의 고유한 다국어 및 코드 이해 능력을 활용한 Gemini Embedding은 다양한 언어와 텍스트 양식에 걸쳐 높은 일반화 가능성을 지닌 임베딩을 생성합니다. Gemini Embedding에 의해 생성된 표현은 사전 계산이 가능하며 분류, 유사성, 클러스터링, 순위 지정, 검색 등 다양한 다운스트림 작업에 적용될 수 있습니다. 250개 이상의 언어에 걸쳐 100개 이상의 작업을 포함하는 Massive Multilingual Text Embedding Benchmark(MMTEB)에서 평가된 결과, Gemini Embedding은 기존의 최첨단 모델들을 크게 능가하며 임베딩 품질에서 상당한 개선을 보여주었습니다. MMTEB의 다국어, 영어, 코드 벤치마크 전반에서 최첨단 성능을 달성한 우리의 통합 모델은 다양한 작업에서 강력한 능력을 보여주며 특정 도메인에 특화된 모델들을 능가합니다.
English
In this report, we introduce Gemini Embedding, a state-of-the-art embedding
model leveraging the power of Gemini, Google's most capable large language
model. Capitalizing on Gemini's inherent multilingual and code understanding
capabilities, Gemini Embedding produces highly generalizable embeddings for
text spanning numerous languages and textual modalities. The representations
generated by Gemini Embedding can be precomputed and applied to a variety of
downstream tasks including classification, similarity, clustering, ranking, and
retrieval. Evaluated on the Massive Multilingual Text Embedding Benchmark
(MMTEB), which includes over one hundred tasks across 250+ languages, Gemini
Embedding substantially outperforms prior state-of-the-art models,
demonstrating considerable improvements in embedding quality. Achieving
state-of-the-art performance across MMTEB's multilingual, English, and code
benchmarks, our unified model demonstrates strong capabilities across a broad
selection of tasks and surpasses specialized domain-specific models.Summary
AI-Generated Summary