LACoS-BLOOM: Niedrigrangige Anpassung mit kontrastivem Ziel auf 8 Bit Siamese-BLOOM

Zusammenfassung

Text-Embeddings sind nützliche Merkmale für verschiedene NLP-Anwendungen wie Satzähnlichkeit, Text-Clustering und semantische Suche. In diesem Artikel präsentieren wir eine Low-rank-Adaptation mit einem kontrastiven Ziel auf Basis von 8-bit Siamese-BLOOM, einem mehrsprachigen großen Sprachmodell, das optimiert wurde, um semantisch aussagekräftige Wort-Embeddings zu erzeugen. Die Innovation besteht aus drei Aspekten. Erstens wandeln wir die BLOOM-Gewichte in 8-bit-Werte um. Zweitens feintunen wir BLOOM mit einem skalierbaren Adapter (LoRA) und dem 8-bit Adam-Optimierer für die Klassifizierung von Satzähnlichkeit. Drittens wenden wir eine Siamese-Architektur auf das BLOOM-Modell mit einem kontrastiven Ziel an, um die Knappheit an mehrsprachig gelabelten Daten zu mildern. Die Experimentergebnisse zeigen, dass die Qualität der gelernten Embeddings von LACoS-BLOOM proportional zur Anzahl der Modellparameter und der Menge der ungelabelten Trainingsdaten ist. Mit dem parameter-effizienten Feintuning-Design können wir BLOOM mit 7,1 Milliarden Parametern end-to-end auf einer einzelnen GPU-Maschine mit 32 GB Speicher ausführen. Im Vergleich zur vorherigen Lösung Sentence-BERT erzielen wir signifikante Verbesserungen bei englischen und mehrsprachigen STS-Aufgaben.

English

Text embeddings are useful features for several NLP applications, such as sentence similarity, text clustering, and semantic search. In this paper, we present a Low-rank Adaptation with a Contrastive objective on top of 8-bit Siamese-BLOOM, a multilingual large language model optimized to produce semantically meaningful word embeddings. The innovation is threefold. First, we cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification. Third, we apply a Siamese architecture on BLOOM model with a contrastive objective to ease the multi-lingual labeled data scarcity. The experiment results show the quality of learned embeddings from LACoS-BLOOM is proportional to the number of model parameters and the amount of unlabeled training data. With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1 billion parameters end-to-end on a single GPU machine with 32GB memory. Compared to previous solution Sentence-BERT, we achieve significant improvement on both English and multi-lingual STS tasks.

LACoS-BLOOM: Niedrigrangige Anpassung mit kontrastivem Ziel auf 8 Bit Siamese-BLOOM

LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM

Zusammenfassung

Support