LACoS-BLOOM: Adattamento a Basso Rango con Obiettivo Contrastivo su 8 bit Siamese-BLOOM

Abstract

Gli embedding di testo sono caratteristiche utili per diverse applicazioni NLP, come la similarità di frasi, il clustering di testi e la ricerca semantica. In questo articolo, presentiamo un adattamento a basso rango con un obiettivo contrastivo su un modello Siamese-BLOOM a 8 bit, un modello linguistico multilingue di grandi dimensioni ottimizzato per produrre embedding di parole semanticamente significativi. L'innovazione è triplice. In primo luogo, convertiamo i pesi di BLOOM in valori a 8 bit. In secondo luogo, ottimizziamo BLOOM con un adattatore scalabile (LoRA) e un ottimizzatore Adam a 8 bit per la classificazione della similarità di frasi. In terzo luogo, applichiamo un'architettura Siamese al modello BLOOM con un obiettivo contrastivo per mitigare la scarsità di dati etichettati multilingue. I risultati degli esperimenti mostrano che la qualità degli embedding appresi da LACoS-BLOOM è proporzionale al numero di parametri del modello e alla quantità di dati di addestramento non etichettati. Grazie al design efficiente in termini di parametri per il fine-tuning, siamo in grado di eseguire BLOOM con 7,1 miliardi di parametri end-to-end su una singola macchina GPU con 32 GB di memoria. Rispetto alla soluzione precedente Sentence-BERT, otteniamo un miglioramento significativo sia nei task STS in inglese che in quelli multilingue.

English

Text embeddings are useful features for several NLP applications, such as sentence similarity, text clustering, and semantic search. In this paper, we present a Low-rank Adaptation with a Contrastive objective on top of 8-bit Siamese-BLOOM, a multilingual large language model optimized to produce semantically meaningful word embeddings. The innovation is threefold. First, we cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification. Third, we apply a Siamese architecture on BLOOM model with a contrastive objective to ease the multi-lingual labeled data scarcity. The experiment results show the quality of learned embeddings from LACoS-BLOOM is proportional to the number of model parameters and the amount of unlabeled training data. With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1 billion parameters end-to-end on a single GPU machine with 32GB memory. Compared to previous solution Sentence-BERT, we achieve significant improvement on both English and multi-lingual STS tasks.

LACoS-BLOOM: Adattamento a Basso Rango con Obiettivo Contrastivo su 8 bit Siamese-BLOOM

LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM

Abstract

Support