LACoS-BLOOM: Низкоранговая адаптация с контрастной целью на 8 битах Siamese-BLOOM
LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM
May 10, 2023
Авторы: Wen-Yu Hua, Brian Williams, Davood Shamsi
cs.AI
Аннотация
Текстовые эмбеддинги являются полезными признаками для ряда задач обработки естественного языка (NLP), таких как определение схожести предложений, кластеризация текста и семантический поиск. В данной работе мы представляем метод Low-rank Adaptation с контрастивной функцией потерь, применяемый к 8-битной версии модели Siamese-BLOOM — многоязычной крупной языковой модели, оптимизированной для генерации семантически значимых векторных представлений слов. Наше нововведение состоит из трех ключевых аспектов. Во-первых, мы приводим веса модели BLOOM к 8-битным значениям. Во-вторых, мы дообучаем BLOOM с использованием масштабируемого адаптера (LoRA) и 8-битного оптимизатора Adam для задачи классификации схожести предложений. В-третьих, мы применяем сиамскую архитектуру к модели BLOOM с контрастивной функцией потерь, чтобы смягчить проблему нехватки размеченных данных для многоязычных задач. Результаты экспериментов показывают, что качество эмбеддингов, полученных с помощью LACoS-BLOOM, пропорционально количеству параметров модели и объему неразмеченных обучающих данных. Благодаря эффективному по параметрам дизайну дообучения, мы можем запускать модель BLOOM с 7,1 миллиардами параметров на одной GPU-машине с 32 ГБ памяти. По сравнению с предыдущим решением Sentence-BERT, мы достигаем значительного улучшения как на английских, так и на многоязычных задачах семантической текстовой схожести (STS).
English
Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.