Nomic Embed: Addestramento di un Embedder di Testo a Lungo Contesto Riproducibile
Nomic Embed: Training a Reproducible Long Context Text Embedder
February 2, 2024
Autori: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI
Abstract
Questo rapporto tecnico descrive l'addestramento di nomic-embed-text-v1, il primo modello di embedding di testo in inglese completamente riproducibile, open-source, con pesi aperti e dati aperti, con una lunghezza di contesto di 8192 token, che supera sia OpenAI Ada-002 che OpenAI text-embedding-3-small in compiti di contesto breve e lungo. Rilasciamo il codice di addestramento e i pesi del modello sotto licenza Apache 2. A differenza di altri modelli open-source, rilasciamo un caricatore di dati di addestramento con 235 milioni di coppie di testo curate che consente la completa replicazione di nomic-embed-text-v1. È possibile trovare il codice e i dati per replicare il modello all'indirizzo https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors