LACoS-BLOOM: Adaptación de Bajo Rango con Objetivo Contrastivo en 8 bits Siamese-BLOOM
LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM
May 10, 2023
Autores: Wen-Yu Hua, Brian Williams, Davood Shamsi
cs.AI
Resumen
Los embeddings de texto son características útiles para varias aplicaciones de PLN, como la similitud de oraciones, la agrupación de textos y la búsqueda semántica. En este artículo, presentamos una Adaptación de Bajo Rango con un objetivo de contraste sobre Siamese-BLOOM de 8 bits, un modelo de lenguaje grande multilingüe optimizado para producir embeddings de palabras semánticamente significativos. La innovación es triple. Primero, convertimos los pesos de BLOOM a valores de 8 bits. Segundo, ajustamos BLOOM con un adaptador escalable (LoRA) y un optimizador Adam de 8 bits para la clasificación de similitud de oraciones. Tercero, aplicamos una arquitectura Siamese en el modelo BLOOM con un objetivo de contraste para mitigar la escasez de datos etiquetados multilingües. Los resultados experimentales muestran que la calidad de los embeddings aprendidos por LACoS-BLOOM es proporcional al número de parámetros del modelo y a la cantidad de datos de entrenamiento no etiquetados. Con el diseño eficiente en parámetros para el ajuste fino, podemos ejecutar BLOOM de 7.1 mil millones de parámetros de extremo a extremo en una máquina con una sola GPU de 32GB de memoria. En comparación con la solución anterior Sentence-BERT, logramos una mejora significativa tanto en tareas STS en inglés como multilingües.
English
Text embeddings are useful features for several NLP applications, such as
sentence similarity, text clustering, and semantic search. In this paper, we
present a Low-rank Adaptation with a Contrastive objective on top of 8-bit
Siamese-BLOOM, a multilingual large language model optimized to produce
semantically meaningful word embeddings. The innovation is threefold. First, we
cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable
adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification.
Third, we apply a Siamese architecture on BLOOM model with a contrastive
objective to ease the multi-lingual labeled data scarcity. The experiment
results show the quality of learned embeddings from LACoS-BLOOM is proportional
to the number of model parameters and the amount of unlabeled training data.
With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1
billion parameters end-to-end on a single GPU machine with 32GB memory.
Compared to previous solution Sentence-BERT, we achieve significant improvement
on both English and multi-lingual STS tasks.