LACoS-BLOOM: Adaptação de Baixo Rank com Objetivo Contrastivo em 8 bits Siamese-BLOOM
LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM
May 10, 2023
Autores: Wen-Yu Hua, Brian Williams, Davood Shamsi
cs.AI
Resumo
Os embeddings de texto são recursos úteis para diversas aplicações de PLN, como similaridade de frases, agrupamento de textos e busca semântica. Neste artigo, apresentamos uma Adaptação de Baixa Dimensão com um objetivo contrastivo sobre o Siamese-BLOOM de 8 bits, um modelo de linguagem grande multilingue otimizado para produzir embeddings de palavras semanticamente significativos. A inovação é tripla. Primeiro, convertemos os pesos do BLOOM para valores de 8 bits. Segundo, ajustamos o BLOOM com um adaptador escalável (LoRA) e o otimizador Adam de 8 bits para classificação de similaridade de frases. Terceiro, aplicamos uma arquitetura Siamese no modelo BLOOM com um objetivo contrastivo para mitigar a escassez de dados rotulados multilingues. Os resultados dos experimentos mostram que a qualidade dos embeddings aprendidos pelo LACoS-BLOOM é proporcional ao número de parâmetros do modelo e à quantidade de dados de treinamento não rotulados. Com o design de ajuste fino eficiente em parâmetros, conseguimos executar o BLOOM de 7,1 bilhões de parâmetros de ponta a ponta em uma única máquina com GPU e 32GB de memória. Comparado à solução anterior Sentence-BERT, alcançamos uma melhoria significativa tanto em tarefas STS em inglês quanto multilingues.
English
Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.