Amélioration des embeddings de texte grâce aux grands modèles de langage
Improving Text Embeddings with Large Language Models
December 31, 2023
Auteurs: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI
Résumé
Dans cet article, nous présentons une méthode nouvelle et simple pour obtenir des embeddings textuels de haute qualité en utilisant uniquement des données synthétiques et moins de 1 000 étapes d'entraînement. Contrairement aux méthodes existantes qui reposent souvent sur un pré-entraînement intermédiaire en plusieurs étapes avec des milliards de paires de textes faiblement supervisées, suivi d'un ajustement fin avec quelques ensembles de données étiquetés, notre méthode ne nécessite pas la construction de pipelines d'entraînement complexes ni le recours à des ensembles de données collectés manuellement, souvent limités par la diversité des tâches et la couverture linguistique. Nous exploitons des LLM propriétaires pour générer des données synthétiques diversifiées pour des centaines de milliers de tâches d'embedding textuel dans près de 100 langues. Nous ajustons ensuite des LLM open-source à décodeur uniquement sur les données synthétiques en utilisant une fonction de perte contrastive standard. Les expériences montrent que notre méthode obtient des performances solides sur des benchmarks d'embedding textuel très compétitifs sans utiliser aucune donnée étiquetée. De plus, lorsqu'elle est ajustée avec un mélange de données synthétiques et étiquetées, notre modèle établit de nouveaux résultats de pointe sur les benchmarks BEIR et MTEB.
English
In this paper, we introduce a novel and simple method for obtaining
high-quality text embeddings using only synthetic data and less than 1k
training steps. Unlike existing methods that often depend on multi-stage
intermediate pre-training with billions of weakly-supervised text pairs,
followed by fine-tuning with a few labeled datasets, our method does not
require building complex training pipelines or relying on manually collected
datasets that are often constrained by task diversity and language coverage. We
leverage proprietary LLMs to generate diverse synthetic data for hundreds of
thousands of text embedding tasks across nearly 100 languages. We then
fine-tune open-source decoder-only LLMs on the synthetic data using standard
contrastive loss. Experiments demonstrate that our method achieves strong
performance on highly competitive text embedding benchmarks without using any
labeled data. Furthermore, when fine-tuned with a mixture of synthetic and
labeled data, our model sets new state-of-the-art results on the BEIR and MTEB
benchmarks.