Nomic Embed: Entrenamiento de un Generador de Incrustaciones de Texto de Contexto Largo Reproducible
Nomic Embed: Training a Reproducible Long Context Text Embedder
February 2, 2024
Autores: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI
Resumen
Este informe técnico describe el entrenamiento de nomic-embed-text-v1, el primer modelo de embeddings de texto en inglés de código abierto, pesos abiertos, datos abiertos y longitud de contexto de 8192 tokens que supera tanto a OpenAI Ada-002 como a OpenAI text-embedding-3-small en tareas de contexto corto y largo. Publicamos el código de entrenamiento y los pesos del modelo bajo una licencia Apache 2. A diferencia de otros modelos de código abierto, liberamos un cargador de datos de entrenamiento con 235 millones de pares de texto curados que permite la replicación completa de nomic-embed-text-v1. Puedes encontrar el código y los datos para replicar el modelo en https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the
first fully reproducible, open-source, open-weights, open-data, 8192 context
length English text embedding model that outperforms both OpenAI Ada-002 and
OpenAI text-embedding-3-small on short and long-context tasks. We release the
training code and model weights under an Apache 2 license. In contrast with
other open-source models, we release a training data loader with 235 million
curated text pairs that allows for the full replication of nomic-embed-text-v1.
You can find code and data to replicate the model at
https://github.com/nomic-ai/contrastors