LACoS-BLOOM: Низкоранговая адаптация с контрастной целью на 8 битах Siamese-BLOOM

Аннотация

Текстовые эмбеддинги являются полезными признаками для ряда задач обработки естественного языка (NLP), таких как определение схожести предложений, кластеризация текста и семантический поиск. В данной работе мы представляем метод Low-rank Adaptation с контрастивной функцией потерь, применяемый к 8-битной версии модели Siamese-BLOOM — многоязычной крупной языковой модели, оптимизированной для генерации семантически значимых векторных представлений слов. Наше нововведение состоит из трех ключевых аспектов. Во-первых, мы приводим веса модели BLOOM к 8-битным значениям. Во-вторых, мы дообучаем BLOOM с использованием масштабируемого адаптера (LoRA) и 8-битного оптимизатора Adam для задачи классификации схожести предложений. В-третьих, мы применяем сиамскую архитектуру к модели BLOOM с контрастивной функцией потерь, чтобы смягчить проблему нехватки размеченных данных для многоязычных задач. Результаты экспериментов показывают, что качество эмбеддингов, полученных с помощью LACoS-BLOOM, пропорционально количеству параметров модели и объему неразмеченных обучающих данных. Благодаря эффективному по параметрам дизайну дообучения, мы можем запускать модель BLOOM с 7,1 миллиардами параметров на одной GPU-машине с 32 ГБ памяти. По сравнению с предыдущим решением Sentence-BERT, мы достигаем значительного улучшения как на английских, так и на многоязычных задачах семантической текстовой схожести (STS).

English

Text embeddings are useful features for several NLP applications, such as sentence similarity, text clustering, and semantic search. In this paper, we present a Low-rank Adaptation with a Contrastive objective on top of 8-bit Siamese-BLOOM, a multilingual large language model optimized to produce semantically meaningful word embeddings. The innovation is threefold. First, we cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification. Third, we apply a Siamese architecture on BLOOM model with a contrastive objective to ease the multi-lingual labeled data scarcity. The experiment results show the quality of learned embeddings from LACoS-BLOOM is proportional to the number of model parameters and the amount of unlabeled training data. With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1 billion parameters end-to-end on a single GPU machine with 32GB memory. Compared to previous solution Sentence-BERT, we achieve significant improvement on both English and multi-lingual STS tasks.

LACoS-BLOOM: Низкоранговая адаптация с контрастной целью на 8 битах Siamese-BLOOM

LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM

Аннотация

Support