Campionatore dinamico di dati per il trasferimento di apprendimento cross-linguistico nei modelli linguistici di grandi dimensioni

Abstract

I Large Language Model (LLM) hanno attirato una significativa attenzione nel campo dell'elaborazione del linguaggio naturale (NLP) grazie alla loro vasta gamma di applicazioni. Tuttavia, l'addestramento di LLM per lingue diverse dall'inglese presenta sfide considerevoli, a causa della difficoltà nell'acquisire corpora su larga scala e delle risorse computazionali necessarie. In questo articolo, proponiamo ChatFlow, un LLM basato sul trasferimento interlinguistico, per affrontare queste sfide e addestrare modelli linguistici cinesi di grandi dimensioni in modo economicamente vantaggioso. Utilizziamo una combinazione di corpora cinesi, inglesi e paralleli per addestrare continuamente il modello LLaMA2, con l'obiettivo di allineare le rappresentazioni interlinguistiche e facilitare il trasferimento di conoscenze specificamente al modello linguistico cinese. Inoltre, impieghiamo un campionatore dinamico dei dati per far progredire gradualmente il modello dalla pre-addestramento non supervisionato al fine-tuning supervisionato. I risultati sperimentali dimostrano che il nostro approccio accelera la convergenza del modello e raggiunge prestazioni superiori. Valutiamo ChatFlow su benchmark popolari cinesi e inglesi, e i risultati indicano che supera altri modelli cinesi post-addestrati su LLaMA-2-7B.

English

Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

Campionatore dinamico di dati per il trasferimento di apprendimento cross-linguistico nei modelli linguistici di grandi dimensioni

Dynamic data sampler for cross-language transfer learning in large language models

Abstract

Support