Nomic Embed : Entraînement d'un encodeur de texte à contexte long reproductible
Nomic Embed: Training a Reproducible Long Context Text Embedder
February 2, 2024
Auteurs: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI
Résumé
Ce rapport technique décrit l'entraînement de nomic-embed-text-v1, le premier modèle d'encodage de texte en anglais entièrement reproductible, open-source, avec des poids ouverts, des données ouvertes et une longueur de contexte de 8192, surpassant à la fois OpenAI Ada-002 et OpenAI text-embedding-3-small sur des tâches à contexte court et long. Nous publions le code d'entraînement et les poids du modèle sous licence Apache 2. Contrairement à d'autres modèles open-source, nous fournissons un chargeur de données d'entraînement contenant 235 millions de paires de texte soigneusement sélectionnées, permettant la réplication complète de nomic-embed-text-v1. Vous pouvez trouver le code et les données pour reproduire le modèle à l'adresse suivante : https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors