Гекко: универсальные текстовые вложения, выделенные из больших языковых моделей
Gecko: Versatile Text Embeddings Distilled from Large Language Models
March 29, 2024
Авторы: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
cs.AI
Аннотация
Мы представляем модель встраивания текста под названием Gecko, которая компактна и универсальна. Gecko достигает высокой производительности поиска за счет использования ключевой идеи: дистилляции знаний из больших языковых моделей (LLM) в поисковик. Наш двухэтапный процесс дистилляции начинается с создания разнообразных синтетических парных данных с использованием LLM. Затем мы дополнительно улучшаем качество данных, извлекая набор кандидатов для каждого запроса и повторно маркируя положительные и сложные негативные отрывки с использованием того же LLM. Эффективность нашего подхода подтверждается компактностью Gecko. На бенчмарке по встраиванию текста (MTEB) модель Gecko с 256 измерениями встраивания превосходит все существующие записи с размером встраивания 768. Модель Gecko с 768 измерениями встраивания достигает среднего показателя 66.31, конкурируя с моделями в 7 раз большего размера и с встраиванием в 5 раз большей размерности.
English
We present Gecko, a compact and versatile text embedding model. Gecko
achieves strong retrieval performance by leveraging a key idea: distilling
knowledge from large language models (LLMs) into a retriever. Our two-step
distillation process begins with generating diverse, synthetic paired data
using an LLM. Next, we further refine the data quality by retrieving a set of
candidate passages for each query, and relabeling the positive and hard
negative passages using the same LLM. The effectiveness of our approach is
demonstrated by the compactness of the Gecko. On the Massive Text Embedding
Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing
entries with 768 embedding size. Gecko with 768 embedding dimensions achieves
an average score of 66.31, competing with 7x larger models and 5x higher
dimensional embeddings.Summary
AI-Generated Summary