ChatPaper.aiChatPaper

Melhorando Embeddings de Texto com Modelos de Linguagem de Grande Escala

Improving Text Embeddings with Large Language Models

December 31, 2023
Autores: Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
cs.AI

Resumo

Neste artigo, apresentamos um método novo e simples para obter embeddings de texto de alta qualidade utilizando apenas dados sintéticos e menos de 1.000 etapas de treinamento. Diferente de métodos existentes que frequentemente dependem de pré-treinamento intermediário em múltiplas etapas com bilhões de pares de texto fracamente supervisionados, seguido de ajuste fino com alguns conjuntos de dados rotulados, nosso método não requer a construção de pipelines de treinamento complexos ou a dependência de conjuntos de dados coletados manualmente que muitas vezes são limitados pela diversidade de tarefas e cobertura linguística. Utilizamos LLMs proprietários para gerar dados sintéticos diversos para centenas de milhares de tarefas de embedding de texto em quase 100 idiomas. Em seguida, ajustamos LLMs decodificadores de código aberto nos dados sintéticos usando a função de perda contrastiva padrão. Experimentos demonstram que nosso método alcança um desempenho forte em benchmarks altamente competitivos de embedding de texto sem utilizar nenhum dado rotulado. Além disso, quando ajustado com uma mistura de dados sintéticos e rotulados, nosso modelo estabelece novos resultados state-of-the-art nos benchmarks BEIR e MTEB.
English
In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across nearly 100 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.
PDF8215December 15, 2024