ChatPaper.aiChatPaper

LLM2Vec: Los Modelos de Lenguaje Grande son Codificadores de Texto Secretamente Poderosos

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

April 9, 2024
Autores: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI

Resumen

Los grandes modelos de lenguaje de solo decodificación (LLMs) son los modelos de vanguardia en la mayoría de las tareas y benchmarks actuales de Procesamiento del Lenguaje Natural (NLP). Sin embargo, la comunidad está adoptando estos modelos lentamente para tareas de incrustación de texto, que requieren representaciones contextualizadas ricas. En este trabajo, presentamos LLM2Vec, un enfoque simple y no supervisado que puede transformar cualquier LLM de solo decodificación en un potente codificador de texto. LLM2Vec consta de tres pasos sencillos: 1) habilitar la atención bidireccional, 2) predicción enmascarada del siguiente token y 3) aprendizaje contrastivo no supervisado. Demostramos la efectividad de LLM2Vec aplicándolo a 3 LLMs populares que van desde 1.3B hasta 7B parámetros y evaluamos los modelos transformados en tareas de nivel de palabra y secuencia en inglés. Superamos ampliamente a los modelos de solo codificación en tareas de nivel de palabra y alcanzamos un nuevo rendimiento de vanguardia no supervisado en el Massive Text Embeddings Benchmark (MTEB). Además, al combinar LLM2Vec con aprendizaje contrastivo supervisado, logramos un rendimiento de vanguardia en MTEB entre los modelos que se entrenan únicamente con datos disponibles públicamente. Nuestros sólidos resultados empíricos y el análisis extenso demuestran que los LLMs pueden transformarse eficazmente en codificadores de texto universales de manera eficiente en parámetros, sin necesidad de adaptaciones costosas o datos sintéticos generados por GPT-4.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.

Summary

AI-Generated Summary

PDF668December 15, 2024