Gecko: 大規模言語モデルから蒸留された汎用テキスト埋め込み
Gecko: Versatile Text Embeddings Distilled from Large Language Models
March 29, 2024
著者: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
cs.AI
要旨
我々は、コンパクトで汎用性の高いテキスト埋め込みモデル「Gecko」を提案する。Geckoは、大規模言語モデル(LLM)から知識を抽出し、検索モデルに蒸留するという重要なアイデアを活用することで、強力な検索性能を実現している。我々の2段階の蒸留プロセスは、まずLLMを使用して多様な合成ペアデータを生成することから始まる。次に、各クエリに対して候補となるパッセージを検索し、同じLLMを使用してポジティブおよびハードネガティブなパッセージを再ラベル付けすることで、データ品質をさらに向上させる。このアプローチの有効性は、Geckoのコンパクトさによって実証されている。Massive Text Embedding Benchmark(MTEB)において、256次元の埋め込みを持つGeckoは、768次元の埋め込みを持つ既存の全てのエントリを凌駕している。768次元の埋め込みを持つGeckoは、平均スコア66.31を達成し、7倍大きいモデルや5倍高い次元の埋め込みと競合する性能を示している。
English
We present Gecko, a compact and versatile text embedding model. Gecko
achieves strong retrieval performance by leveraging a key idea: distilling
knowledge from large language models (LLMs) into a retriever. Our two-step
distillation process begins with generating diverse, synthetic paired data
using an LLM. Next, we further refine the data quality by retrieving a set of
candidate passages for each query, and relabeling the positive and hard
negative passages using the same LLM. The effectiveness of our approach is
demonstrated by the compactness of the Gecko. On the Massive Text Embedding
Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing
entries with 768 embedding size. Gecko with 768 embedding dimensions achieves
an average score of 66.31, competing with 7x larger models and 5x higher
dimensional embeddings.Summary
AI-Generated Summary