Nomic Embed: Treinando um Gerador de Embeddings de Texto de Contexto Longo Reproduzível
Nomic Embed: Training a Reproducible Long Context Text Embedder
February 2, 2024
Autores: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI
Resumo
Este relatório técnico descreve o treinamento do nomic-embed-text-v1, o primeiro modelo de incorporação de texto em inglês totalmente reproduzível, de código aberto, com pesos abertos e dados abertos, com comprimento de contexto de 8192, que supera tanto o OpenAI Ada-002 quanto o OpenAI text-embedding-3-small em tarefas de contexto curto e longo. Disponibilizamos o código de treinamento e os pesos do modelo sob uma licença Apache 2. Em contraste com outros modelos de código aberto, liberamos um carregador de dados de treinamento com 235 milhões de pares de textos curados que permite a replicação completa do nomic-embed-text-v1. O código e os dados para replicar o modelo podem ser encontrados em https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors