LLM2Vec: Grote Taalmodellen zijn in het geheim krachtige tekstencoders
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
April 9, 2024
Auteurs: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI
Samenvatting
Grote decoder-only taalmmodellen (LLM's) zijn de state-of-the-art modellen voor de meeste hedendaagse NLP-taken en benchmarks. Toch neemt de gemeenschap deze modellen slechts langzaam in gebruik voor tekstembeddingstaken, die rijke gecontextualiseerde representaties vereisen. In dit werk introduceren we LLM2Vec, een eenvoudige onbewaakte aanpak die elke decoder-only LLM kan omzetten in een sterke tekstencoder. LLM2Vec bestaat uit drie eenvoudige stappen: 1) het inschakelen van bidirectionele aandacht, 2) gemaskeerde voorspelling van het volgende token, en 3) onbewaakt contrastief leren. We demonstreren de effectiviteit van LLM2Vec door het toe te passen op 3 populaire LLM's met een bereik van 1,3B tot 7B parameters en evalueren de getransformeerde modellen op Engelse woord- en sequentieniveau taken. We overtreffen encoder-only modellen met een grote marge op woordniveau taken en bereiken een nieuwe onbewaakte state-of-the-art prestatie op de Massive Text Embeddings Benchmark (MTEB). Bovendien bereiken we, wanneer we LLM2Vec combineren met bewaakt contrastief leren, state-of-the-art prestaties op MTEB onder modellen die alleen trainen op publiek beschikbare data. Onze sterke empirische resultaten en uitgebreide analyse tonen aan dat LLM's effectief kunnen worden omgezet in universele tekstencoders op een parameter-efficiënte manier, zonder de noodzaak van dure aanpassingen of synthetische GPT-4 gegenereerde data.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on
most of today's NLP tasks and benchmarks. Yet, the community is only slowly
adopting these models for text embedding tasks, which require rich
contextualized representations. In this work, we introduce LLM2Vec, a simple
unsupervised approach that can transform any decoder-only LLM into a strong
text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional
attention, 2) masked next token prediction, and 3) unsupervised contrastive
learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3
popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed
models on English word- and sequence-level tasks. We outperform encoder-only
models by a large margin on word-level tasks and reach a new unsupervised
state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB).
Moreover, when combining LLM2Vec with supervised contrastive learning, we
achieve state-of-the-art performance on MTEB among models that train only on
publicly available data. Our strong empirical results and extensive analysis
demonstrate that LLMs can be effectively transformed into universal text
encoders in a parameter-efficient manner without the need for expensive
adaptation or synthetic GPT-4 generated data.