ChatPaper.aiChatPaper

Nomic Embed: Addestramento di un Embedder di Testo a Lungo Contesto Riproducibile

Nomic Embed: Training a Reproducible Long Context Text Embedder

February 2, 2024
Autori: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI

Abstract

Questo rapporto tecnico descrive l'addestramento di nomic-embed-text-v1, il primo modello di embedding di testo in inglese completamente riproducibile, open-source, con pesi aperti e dati aperti, con una lunghezza di contesto di 8192 token, che supera sia OpenAI Ada-002 che OpenAI text-embedding-3-small in compiti di contesto breve e lungo. Rilasciamo il codice di addestramento e i pesi del modello sotto licenza Apache 2. A differenza di altri modelli open-source, rilasciamo un caricatore di dati di addestramento con 235 milioni di coppie di testo curate che consente la completa replicazione di nomic-embed-text-v1. È possibile trovare il codice e i dati per replicare il modello all'indirizzo https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the first fully reproducible, open-source, open-weights, open-data, 8192 context length English text embedding model that outperforms both OpenAI Ada-002 and OpenAI text-embedding-3-small on short and long-context tasks. We release the training code and model weights under an Apache 2 license. In contrast with other open-source models, we release a training data loader with 235 million curated text pairs that allows for the full replication of nomic-embed-text-v1. You can find code and data to replicate the model at https://github.com/nomic-ai/contrastors
PDF151December 15, 2024