LACoS-BLOOM: Niedrigrangige Anpassung mit kontrastivem Ziel auf 8 Bit Siamese-BLOOM
LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM
May 10, 2023
Autoren: Wen-Yu Hua, Brian Williams, Davood Shamsi
cs.AI
Zusammenfassung
Text-Embeddings sind nützliche Merkmale für verschiedene NLP-Anwendungen wie Satzähnlichkeit, Text-Clustering und semantische Suche. In diesem Artikel präsentieren wir eine Low-rank-Adaptation mit einem kontrastiven Ziel auf Basis von 8-bit Siamese-BLOOM, einem mehrsprachigen großen Sprachmodell, das optimiert wurde, um semantisch aussagekräftige Wort-Embeddings zu erzeugen. Die Innovation besteht aus drei Aspekten. Erstens wandeln wir die BLOOM-Gewichte in 8-bit-Werte um. Zweitens feintunen wir BLOOM mit einem skalierbaren Adapter (LoRA) und dem 8-bit Adam-Optimierer für die Klassifizierung von Satzähnlichkeit. Drittens wenden wir eine Siamese-Architektur auf das BLOOM-Modell mit einem kontrastiven Ziel an, um die Knappheit an mehrsprachig gelabelten Daten zu mildern. Die Experimentergebnisse zeigen, dass die Qualität der gelernten Embeddings von LACoS-BLOOM proportional zur Anzahl der Modellparameter und der Menge der ungelabelten Trainingsdaten ist. Mit dem parameter-effizienten Feintuning-Design können wir BLOOM mit 7,1 Milliarden Parametern end-to-end auf einer einzelnen GPU-Maschine mit 32 GB Speicher ausführen. Im Vergleich zur vorherigen Lösung Sentence-BERT erzielen wir signifikante Verbesserungen bei englischen und mehrsprachigen STS-Aufgaben.
English
Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.