대규모 언어 모델을 위한 교차 언어 전이 학습을 위한 동적 데이터 샘플러
Dynamic data sampler for cross-language transfer learning in large language models
May 17, 2024
저자: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI
초록
대규모 언어 모델(LLM)은 다양한 응용 분야로 인해 자연어 처리(NLP) 분야에서 상당한 주목을 받고 있습니다. 그러나 영어 이외의 언어에 대한 LLM 학습은 대규모 코퍼스 확보의 어려움과 필요한 컴퓨팅 자원으로 인해 상당한 도전 과제로 여겨집니다. 본 논문에서는 이러한 문제를 해결하고 비용 효율적으로 대규모 중국어 언어 모델을 학습하기 위해 교차 언어 전이 기반의 LLM인 ChatFlow를 제안합니다. 우리는 중국어, 영어 및 병렬 코퍼스를 혼합하여 LLaMA2 모델을 지속적으로 학습시킴으로써 교차 언어 표현을 정렬하고, 특히 중국어 언어 모델로의 지식 전이를 용이하게 합니다. 또한, 동적 데이터 샘플러를 사용하여 모델이 비지도 사전 학습에서 지도 미세 조정으로 점진적으로 전환되도록 합니다. 실험 결과는 우리의 접근 방식이 모델 수렴을 가속화하고 우수한 성능을 달성함을 보여줍니다. 우리는 ChatFlow를 인기 있는 중국어 및 영어 벤치마크에서 평가하였으며, 그 결과 LLaMA-2-7B를 기반으로 사후 학습된 다른 중국어 모델들을 능가하는 성능을 보임을 확인했습니다.
English
Large Language Models (LLMs) have gained significant attention in the field
of natural language processing (NLP) due to their wide range of applications.
However, training LLMs for languages other than English poses significant
challenges, due to the difficulty in acquiring large-scale corpus and the
requisite computing resources. In this paper, we propose ChatFlow, a
cross-language transfer-based LLM, to address these challenges and train large
Chinese language models in a cost-effective manner. We employ a mix of Chinese,
English, and parallel corpus to continuously train the LLaMA2 model, aiming to
align cross-language representations and facilitate the knowledge transfer
specifically to the Chinese language model. In addition, we use a dynamic data
sampler to progressively transition the model from unsupervised pre-training to
supervised fine-tuning. Experimental results demonstrate that our approach
accelerates model convergence and achieves superior performance. We evaluate
ChatFlow on popular Chinese and English benchmarks, the results indicate that
it outperforms other Chinese models post-trained on LLaMA-2-7B.Summary
AI-Generated Summary