LACoS-BLOOM: 8ビットでの低ランク適応と対照目的関数を用いたSiamese-BLOOM
LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM
May 10, 2023
著者: Wen-Yu Hua, Brian Williams, Davood Shamsi
cs.AI
要旨
テキスト埋め込みは、文類似性、テキストクラスタリング、意味検索など、いくつかのNLPアプリケーションにおいて有用な特徴量です。本論文では、8ビットのSiamese-BLOOM上にコントラスティブ目的関数を適用した低ランク適応(LoRA)を提案します。BLOOMは、意味的に有意義な単語埋め込みを生成するために最適化された多言語大規模言語モデルです。本手法の革新点は3つあります。第一に、BLOOMの重みを8ビット値にキャストします。第二に、スケーラブルなアダプタ(LoRA)と8ビットAdamオプティマイザを用いて、文類似性分類のためにBLOOMをファインチューニングします。第三に、多言語ラベル付きデータの不足を緩和するため、コントラスティブ目的関数を適用したSiameseアーキテクチャをBLOOMモデルに適用します。実験結果から、LACoS-BLOOMから学習された埋め込みの品質は、モデルパラメータ数と未ラベル訓練データ量に比例することが示されました。パラメータ効率的なファインチューニング設計により、32GBメモリを搭載した単一GPUマシン上で、71億パラメータのBLOOMをエンドツーエンドで実行可能です。従来のソリューションであるSentence-BERTと比較して、英語および多言語STSタスクにおいて大幅な改善を達成しました。
English
Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.