ChatPaper.aiChatPaper

Гекко: универсальные текстовые вложения, выделенные из больших языковых моделей

Gecko: Versatile Text Embeddings Distilled from Large Language Models

March 29, 2024
Авторы: Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim
cs.AI

Аннотация

Мы представляем модель встраивания текста под названием Gecko, которая компактна и универсальна. Gecko достигает высокой производительности поиска за счет использования ключевой идеи: дистилляции знаний из больших языковых моделей (LLM) в поисковик. Наш двухэтапный процесс дистилляции начинается с создания разнообразных синтетических парных данных с использованием LLM. Затем мы дополнительно улучшаем качество данных, извлекая набор кандидатов для каждого запроса и повторно маркируя положительные и сложные негативные отрывки с использованием того же LLM. Эффективность нашего подхода подтверждается компактностью Gecko. На бенчмарке по встраиванию текста (MTEB) модель Gecko с 256 измерениями встраивания превосходит все существующие записи с размером встраивания 768. Модель Gecko с 768 измерениями встраивания достигает среднего показателя 66.31, конкурируя с моделями в 7 раз большего размера и с встраиванием в 5 раз большей размерности.
English
We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.

Summary

AI-Generated Summary

PDF494November 26, 2024