Amélioration des embeddings de texte grâce aux grands modèles de langage

papers.abstract

Dans cet article, nous présentons une méthode nouvelle et simple pour obtenir des embeddings textuels de haute qualité en utilisant uniquement des données synthétiques et moins de 1 000 étapes d'entraînement. Contrairement aux méthodes existantes qui reposent souvent sur un pré-entraînement intermédiaire en plusieurs étapes avec des milliards de paires de textes faiblement supervisées, suivi d'un ajustement fin avec quelques ensembles de données étiquetés, notre méthode ne nécessite pas la construction de pipelines d'entraînement complexes ni le recours à des ensembles de données collectés manuellement, souvent limités par la diversité des tâches et la couverture linguistique. Nous exploitons des LLM propriétaires pour générer des données synthétiques diversifiées pour des centaines de milliers de tâches d'embedding textuel dans près de 100 langues. Nous ajustons ensuite des LLM open-source à décodeur uniquement sur les données synthétiques en utilisant une fonction de perte contrastive standard. Les expériences montrent que notre méthode obtient des performances solides sur des benchmarks d'embedding textuel très compétitifs sans utiliser aucune donnée étiquetée. De plus, lorsqu'elle est ajustée avec un mélange de données synthétiques et étiquetées, notre modèle établit de nouveaux résultats de pointe sur les benchmarks BEIR et MTEB.

English

In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across nearly 100 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.

Amélioration des embeddings de texte grâce aux grands modèles de langage

Improving Text Embeddings with Large Language Models

papers.abstract

Support