LLM2Vec: Большие языковые модели - мощные текстовые кодировщики
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
April 9, 2024
Авторы: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI
Аннотация
Большие модели языка только с декодером (LLM) являются современными моделями для большинства сегодняшних задач и бенчмарков в области обработки естественного языка. Тем не менее, сообщество медленно принимает эти модели для задач встраивания текста, которые требуют богатых контекстуализированных представлений. В данной работе мы представляем LLM2Vec, простой ненадзорный подход, который может преобразовать любую модель LLM только с декодером в мощный текстовый кодировщик. LLM2Vec состоит из трех простых шагов: 1) включение двунаправленного внимания, 2) маскированное предсказание следующего токена и 3) ненадзорное контрастное обучение. Мы демонстрируем эффективность LLM2Vec, применяя его к 3 популярным LLM с количеством параметров от 1,3 млрд до 7 млрд, и оцениваем преобразованные модели на задачах на уровне слов и последовательностей на английском языке. Мы превосходим модели только с кодировщиком с большим отрывом на задачах на уровне слов и достигаем нового ненадзорного современного уровня производительности на Бенчмарке по Массивным Встраиваниям Текста (MTEB). Более того, комбинируя LLM2Vec с надзорным контрастным обучением, мы достигаем современного уровня производительности на MTEB среди моделей, которые обучаются только на общедоступных данных. Наши сильные эмпирические результаты и обширный анализ демонстрируют, что LLM могут быть эффективно преобразованы в универсальные текстовые кодировщики эффективным способом с небольшим количеством параметров без необходимости дорогостоящей адаптации или создания синтетических данных, сгенерированных GPT-4.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on
most of today's NLP tasks and benchmarks. Yet, the community is only slowly
adopting these models for text embedding tasks, which require rich
contextualized representations. In this work, we introduce LLM2Vec, a simple
unsupervised approach that can transform any decoder-only LLM into a strong
text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional
attention, 2) masked next token prediction, and 3) unsupervised contrastive
learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3
popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed
models on English word- and sequence-level tasks. We outperform encoder-only
models by a large margin on word-level tasks and reach a new unsupervised
state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB).
Moreover, when combining LLM2Vec with supervised contrastive learning, we
achieve state-of-the-art performance on MTEB among models that train only on
publicly available data. Our strong empirical results and extensive analysis
demonstrate that LLMs can be effectively transformed into universal text
encoders in a parameter-efficient manner without the need for expensive
adaptation or synthetic GPT-4 generated data.Summary
AI-Generated Summary