LLM2Vec : Les grands modèles de langage sont secrètement des encodeurs de texte puissants
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
April 9, 2024
Auteurs: Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
cs.AI
Résumé
Les grands modèles de langage à décodeur unique (LLMs) constituent l'état de l'art pour la plupart des tâches et benchmarks actuels en traitement du langage naturel (NLP). Cependant, la communauté adopte lentement ces modèles pour les tâches d'incorporation de texte, qui nécessitent des représentations contextuelles riches. Dans ce travail, nous présentons LLM2Vec, une approche simple et non supervisée capable de transformer n'importe quel LLM à décodeur unique en un puissant encodeur de texte. LLM2Vec se compose de trois étapes simples : 1) activation de l'attention bidirectionnelle, 2) prédiction masquée du token suivant, et 3) apprentissage contrastif non supervisé. Nous démontrons l'efficacité de LLM2Vec en l'appliquant à trois LLMs populaires, allant de 1,3 à 7 milliards de paramètres, et en évaluant les modèles transformés sur des tâches anglaises au niveau des mots et des séquences. Nous surpassons largement les modèles à encodeur unique sur les tâches au niveau des mots et atteignons une nouvelle performance de pointe non supervisée sur le benchmark d'incorporation de texte massif (MTEB). De plus, en combinant LLM2Vec avec un apprentissage contrastif supervisé, nous obtenons une performance de pointe sur MTEB parmi les modèles qui s'entraînent uniquement sur des données publiquement disponibles. Nos résultats empiriques solides et notre analyse approfondie démontrent que les LLMs peuvent être efficacement transformés en encodeurs de texte universels de manière économe en paramètres, sans nécessiter d'adaptation coûteuse ou de données synthétiques générées par GPT-4.
English
Large decoder-only language models (LLMs) are the state-of-the-art models on
most of today's NLP tasks and benchmarks. Yet, the community is only slowly
adopting these models for text embedding tasks, which require rich
contextualized representations. In this work, we introduce LLM2Vec, a simple
unsupervised approach that can transform any decoder-only LLM into a strong
text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional
attention, 2) masked next token prediction, and 3) unsupervised contrastive
learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3
popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed
models on English word- and sequence-level tasks. We outperform encoder-only
models by a large margin on word-level tasks and reach a new unsupervised
state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB).
Moreover, when combining LLM2Vec with supervised contrastive learning, we
achieve state-of-the-art performance on MTEB among models that train only on
publicly available data. Our strong empirical results and extensive analysis
demonstrate that LLMs can be effectively transformed into universal text
encoders in a parameter-efficient manner without the need for expensive
adaptation or synthetic GPT-4 generated data.Summary
AI-Generated Summary