Campionatore dinamico di dati per il trasferimento di apprendimento cross-linguistico nei modelli linguistici di grandi dimensioni
Dynamic data sampler for cross-language transfer learning in large language models
May 17, 2024
Autori: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI
Abstract
I Large Language Model (LLM) hanno attirato una significativa attenzione nel campo dell'elaborazione del linguaggio naturale (NLP) grazie alla loro vasta gamma di applicazioni. Tuttavia, l'addestramento di LLM per lingue diverse dall'inglese presenta sfide considerevoli, a causa della difficoltà nell'acquisire corpora su larga scala e delle risorse computazionali necessarie. In questo articolo, proponiamo ChatFlow, un LLM basato sul trasferimento interlinguistico, per affrontare queste sfide e addestrare modelli linguistici cinesi di grandi dimensioni in modo economicamente vantaggioso. Utilizziamo una combinazione di corpora cinesi, inglesi e paralleli per addestrare continuamente il modello LLaMA2, con l'obiettivo di allineare le rappresentazioni interlinguistiche e facilitare il trasferimento di conoscenze specificamente al modello linguistico cinese. Inoltre, impieghiamo un campionatore dinamico dei dati per far progredire gradualmente il modello dalla pre-addestramento non supervisionato al fine-tuning supervisionato. I risultati sperimentali dimostrano che il nostro approccio accelera la convergenza del modello e raggiunge prestazioni superiori. Valutiamo ChatFlow su benchmark popolari cinesi e inglesi, e i risultati indicano che supera altri modelli cinesi post-addestrati su LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field
of natural language processing (NLP) due to their wide range of applications.
However, training LLMs for languages other than English poses significant
challenges, due to the difficulty in acquiring large-scale corpus and the
requisite computing resources. In this paper, we propose ChatFlow, a
cross-language transfer-based LLM, to address these challenges and train large
Chinese language models in a cost-effective manner. We employ a mix of Chinese,
English, and parallel corpus to continuously train the LLaMA2 model, aiming to
align cross-language representations and facilitate the knowledge transfer
specifically to the Chinese language model. In addition, we use a dynamic data
sampler to progressively transition the model from unsupervised pre-training to
supervised fine-tuning. Experimental results demonstrate that our approach
accelerates model convergence and achieves superior performance. We evaluate
ChatFlow on popular Chinese and English benchmarks, the results indicate that
it outperforms other Chinese models post-trained on LLaMA-2-7B.