ChatPaper.aiChatPaper

Gecko: Vielseitige Texteinbettungen, destilliert aus großen Sprachmodellen

Gecko: Versatile Text Embeddings Distilled from Large Language Models

March 29, 2024
Autoren: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
cs.AI

Zusammenfassung

Wir präsentieren Gecko, ein kompaktes und vielseitiges Texteinbettungsmodell. Gecko erzielt eine starke Abrufleistung, indem es eine Schlüsselidee nutzt: das Destillieren von Wissen aus großen Sprachmodellen (LLMs) in einen Abruf. Unser zweistufiger Destillationsprozess beginnt mit der Erzeugung vielfältiger, synthetischer gepaarter Daten unter Verwendung eines LLMs. Anschließend verfeinern wir die Datenqualität weiter, indem wir für jede Abfrage eine Reihe von Kandidatenpassagen abrufen und die positiven und schwierigen negativen Passagen mit demselben LLM neu kennzeichnen. Die Wirksamkeit unseres Ansatzes wird durch die Kompaktheit des Gecko demonstriert. Auf dem Massive Text Embedding Benchmark (MTEB) übertrifft Gecko mit 256 Einbettungsdimensionen alle bestehenden Einträge mit 768 Einbettungsgröße. Gecko mit 768 Einbettungsdimensionen erreicht einen durchschnittlichen Score von 66,31 und konkurriert mit 7-mal größeren Modellen und 5-mal höherdimensionalen Einbettungen.
English
We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.

Summary

AI-Generated Summary

PDF494November 26, 2024