ChatPaper.aiChatPaper

Nomic Embed: Обучение воспроизводимого текстового эмбеддера для длинных контекстов

Nomic Embed: Training a Reproducible Long Context Text Embedder

February 2, 2024
Авторы: Zach Nussbaum, John X. Morris, Brandon Duderstadt, Andriy Mulyar
cs.AI

Аннотация

В данном техническом отчете описывается процесс обучения модели nomic-embed-text-v1 — первой полностью воспроизводимой, открытой, с открытыми весами и данными модели для создания текстовых эмбеддингов на английском языке с длиной контекста 8192, которая превосходит модели OpenAI Ada-002 и OpenAI text-embedding-3-small как в задачах с коротким, так и с длинным контекстом. Мы публикуем код обучения и веса модели под лицензией Apache 2. В отличие от других открытых моделей, мы предоставляем загрузчик обучающих данных, содержащий 235 миллионов тщательно отобранных текстовых пар, что позволяет полностью воспроизвести nomic-embed-text-v1. Код и данные для воспроизведения модели доступны по адресу: https://github.com/nomic-ai/contrastors.
English
This technical report describes the training of nomic-embed-text-v1, the first fully reproducible, open-source, open-weights, open-data, 8192 context length English text embedding model that outperforms both OpenAI Ada-002 and OpenAI text-embedding-3-small on short and long-context tasks. We release the training code and model weights under an Apache 2 license. In contrast with other open-source models, we release a training data loader with 235 million curated text pairs that allows for the full replication of nomic-embed-text-v1. You can find code and data to replicate the model at https://github.com/nomic-ai/contrastors
PDF151December 15, 2024