LLM2Vec: Grote Taalmodellen zijn in het geheim krachtige tekstencoders

Samenvatting

Grote decoder-only taalmmodellen (LLM's) zijn de state-of-the-art modellen voor de meeste hedendaagse NLP-taken en benchmarks. Toch neemt de gemeenschap deze modellen slechts langzaam in gebruik voor tekstembeddingstaken, die rijke gecontextualiseerde representaties vereisen. In dit werk introduceren we LLM2Vec, een eenvoudige onbewaakte aanpak die elke decoder-only LLM kan omzetten in een sterke tekstencoder. LLM2Vec bestaat uit drie eenvoudige stappen: 1) het inschakelen van bidirectionele aandacht, 2) gemaskeerde voorspelling van het volgende token, en 3) onbewaakt contrastief leren. We demonstreren de effectiviteit van LLM2Vec door het toe te passen op 3 populaire LLM's met een bereik van 1,3B tot 7B parameters en evalueren de getransformeerde modellen op Engelse woord- en sequentieniveau taken. We overtreffen encoder-only modellen met een grote marge op woordniveau taken en bereiken een nieuwe onbewaakte state-of-the-art prestatie op de Massive Text Embeddings Benchmark (MTEB). Bovendien bereiken we, wanneer we LLM2Vec combineren met bewaakt contrastief leren, state-of-the-art prestaties op MTEB onder modellen die alleen trainen op publiek beschikbare data. Onze sterke empirische resultaten en uitgebreide analyse tonen aan dat LLM's effectief kunnen worden omgezet in universele tekstencoders op een parameter-efficiënte manier, zonder de noodzaak van dure aanpassingen of synthetische GPT-4 gegenereerde data.

English

Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.

LLM2Vec: Grote Taalmodellen zijn in het geheim krachtige tekstencoders

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Samenvatting

Support