Amostrador dinâmico de dados para aprendizado de transferência entre idiomas em modelos de linguagem de grande escala
Dynamic data sampler for cross-language transfer learning in large language models
May 17, 2024
Autores: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm ganhado atenção significativa no campo de processamento de linguagem natural (NLP) devido à sua ampla gama de aplicações. No entanto, o treinamento de LLMs para idiomas diferentes do inglês apresenta desafios consideráveis, principalmente devido à dificuldade em adquirir corpora em grande escala e os recursos computacionais necessários. Neste artigo, propomos o ChatFlow, um LLM baseado em transferência de linguagem cruzada, para abordar esses desafios e treinar modelos de linguagem chinesa de grande escala de forma econômica. Empregamos uma mistura de corpora em chinês, inglês e paralelos para treinar continuamente o modelo LLaMA2, com o objetivo de alinhar representações de linguagem cruzada e facilitar a transferência de conhecimento especificamente para o modelo de linguagem chinesa. Além disso, utilizamos um amostrador dinâmico de dados para transicionar progressivamente o modelo do pré-treinamento não supervisionado para o ajuste fino supervisionado. Os resultados experimentais demonstram que nossa abordagem acelera a convergência do modelo e alcança um desempenho superior. Avaliamos o ChatFlow em benchmarks populares de chinês e inglês, e os resultados indicam que ele supera outros modelos chineses pós-treinados no LLaMA-2-7B.
English
Large Language Models (LLMs) have gained significant attention in the field
of natural language processing (NLP) due to their wide range of applications.
However, training LLMs for languages other than English poses significant
challenges, due to the difficulty in acquiring large-scale corpus and the
requisite computing resources. In this paper, we propose ChatFlow, a
cross-language transfer-based LLM, to address these challenges and train large
Chinese language models in a cost-effective manner. We employ a mix of Chinese,
English, and parallel corpus to continuously train the LLaMA2 model, aiming to
align cross-language representations and facilitate the knowledge transfer
specifically to the Chinese language model. In addition, we use a dynamic data
sampler to progressively transition the model from unsupervised pre-training to
supervised fine-tuning. Experimental results demonstrate that our approach
accelerates model convergence and achieves superior performance. We evaluate
ChatFlow on popular Chinese and English benchmarks, the results indicate that
it outperforms other Chinese models post-trained on LLaMA-2-7B.