ChatPaper.aiChatPaper

Gecko: 대규모 언어 모델에서 추출한 다목적 텍스트 임베딩

Gecko: Versatile Text Embeddings Distilled from Large Language Models

March 29, 2024
저자: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
cs.AI

초록

우리는 컴팩트하면서도 다용도로 활용 가능한 텍스트 임베딩 모델인 Gecko를 소개한다. Gecko는 대규모 언어 모델(LLM)로부터 지식을 추출하여 리트리버에 전달하는 핵심 아이디어를 통해 강력한 검색 성능을 달성한다. 우리의 2단계 지식 증류 프로세스는 먼저 LLM을 사용하여 다양하고 합성된 쌍 데이터를 생성하는 것으로 시작한다. 다음으로, 각 쿼리에 대한 후보 문단 세트를 검색하고 동일한 LLM을 사용하여 긍정적 및 어려운 부정적 문단을 재라벨링함으로써 데이터 품질을 더욱 개선한다. 우리 접근 방식의 효과는 Gecko의 컴팩트함으로 입증된다. Massive Text Embedding Benchmark(MTEB)에서 256 임베딩 차원의 Gecko는 768 임베딩 크기의 모든 기존 모델을 능가한다. 768 임베딩 차원의 Gecko는 평균 66.31점을 달성하며, 7배 더 큰 모델과 5배 더 높은 차원의 임베딩과 경쟁력을 보인다.
English
We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.

Summary

AI-Generated Summary

PDF494November 26, 2024