Nomic Embed: Training eines reproduzierbaren Text-Einbettungsmodells für lange Kontexte
Nomic Embed: Training a Reproducible Long Context Text Embedder
February 2, 2024
Autoren: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI
Zusammenfassung
Dieser technische Bericht beschreibt das Training von nomic-embed-text-v1, dem ersten vollständig reproduzierbaren, quelloffenen, gewichtsöffentlichen und datenoffenen englischen Text-Einbettungsmodell mit einer Kontextlänge von 8192, das sowohl OpenAI Ada-002 als auch OpenAI text-embedding-3-small bei kurzen und langen Kontextaufgaben übertrifft. Wir veröffentlichen den Trainingscode und die Modellgewichte unter einer Apache-2-Lizenz. Im Gegensatz zu anderen quelloffenen Modellen stellen wir einen Trainingsdatenloader mit 235 Millionen kuratierten Textpaaren bereit, der die vollständige Replikation von nomic-embed-text-v1 ermöglicht. Code und Daten zur Replikation des Modells finden Sie unter https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors