LLM2Vec: Большие языковые модели - мощные текстовые кодировщики

Аннотация

Большие модели языка только с декодером (LLM) являются современными моделями для большинства сегодняшних задач и бенчмарков в области обработки естественного языка. Тем не менее, сообщество медленно принимает эти модели для задач встраивания текста, которые требуют богатых контекстуализированных представлений. В данной работе мы представляем LLM2Vec, простой ненадзорный подход, который может преобразовать любую модель LLM только с декодером в мощный текстовый кодировщик. LLM2Vec состоит из трех простых шагов: 1) включение двунаправленного внимания, 2) маскированное предсказание следующего токена и 3) ненадзорное контрастное обучение. Мы демонстрируем эффективность LLM2Vec, применяя его к 3 популярным LLM с количеством параметров от 1,3 млрд до 7 млрд, и оцениваем преобразованные модели на задачах на уровне слов и последовательностей на английском языке. Мы превосходим модели только с кодировщиком с большим отрывом на задачах на уровне слов и достигаем нового ненадзорного современного уровня производительности на Бенчмарке по Массивным Встраиваниям Текста (MTEB). Более того, комбинируя LLM2Vec с надзорным контрастным обучением, мы достигаем современного уровня производительности на MTEB среди моделей, которые обучаются только на общедоступных данных. Наши сильные эмпирические результаты и обширный анализ демонстрируют, что LLM могут быть эффективно преобразованы в универсальные текстовые кодировщики эффективным способом с небольшим количеством параметров без необходимости дорогостоящей адаптации или создания синтетических данных, сгенерированных GPT-4.

English

Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.

LLM2Vec: Большие языковые модели - мощные текстовые кодировщики

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Аннотация

Support