LLM2Vec: Modelos de Linguagem de Grande Porte São Codificadores de Texto Poderosos em Segredo
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
April 9, 2024
Autores: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI
Resumo
Grandes modelos de linguagem apenas de decodificação (LLMs) são os modelos de última geração na maioria das tarefas e benchmarks atuais de PLN. No entanto, a comunidade está adotando esses modelos lentamente para tarefas de incorporação de texto, que exigem representações contextualizadas ricas. Neste trabalho, introduzimos o LLM2Vec, uma abordagem simples e não supervisionada que pode transformar qualquer LLM apenas de decodificação em um forte codificador de texto. O LLM2Vec consiste em três etapas simples: 1) habilitação de atenção bidirecional, 2) previsão mascarada do próximo token e 3) aprendizado contrastivo não supervisionado. Demonstramos a eficácia do LLM2Vec aplicando-o a três LLMs populares, variando de 1,3B a 7B parâmetros, e avaliamos os modelos transformados em tarefas de nível de palavra e sequência em inglês. Superamos modelos apenas de codificação por uma grande margem em tarefas de nível de palavra e alcançamos um novo desempenho de última geração não supervisionado no Massive Text Embeddings Benchmark (MTEB). Além disso, ao combinar o LLM2Vec com aprendizado contrastivo supervisionado, alcançamos o desempenho de última geração no MTEB entre os modelos que treinam apenas com dados publicamente disponíveis. Nossos fortes resultados empíricos e análise extensa demonstram que os LLMs podem ser efetivamente transformados em codificadores de texto universais de maneira eficiente em termos de parâmetros, sem a necessidade de adaptação cara ou dados sintéticos gerados pelo GPT-4.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on
most of today's NLP tasks and benchmarks. Yet, the community is only slowly
adopting these models for text embedding tasks, which require rich
contextualized representations. In this work, we introduce LLM2Vec, a simple
unsupervised approach that can transform any decoder-only LLM into a strong
text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional
attention, 2) masked next token prediction, and 3) unsupervised contrastive
learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3
popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed
models on English word- and sequence-level tasks. We outperform encoder-only
models by a large margin on word-level tasks and reach a new unsupervised
state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB).
Moreover, when combining LLM2Vec with supervised contrastive learning, we
achieve state-of-the-art performance on MTEB among models that train only on
publicly available data. Our strong empirical results and extensive analysis
demonstrate that LLMs can be effectively transformed into universal text
encoders in a parameter-efficient manner without the need for expensive
adaptation or synthetic GPT-4 generated data.