ChatPaper.aiChatPaper

大規模言語モデルにおける言語間転移学習のための動的データサンプラー

Dynamic data sampler for cross-language transfer learning in large language models

May 17, 2024
著者: Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou
cs.AI

要旨

大規模言語モデル(LLM)は、その幅広い応用可能性から自然言語処理(NLP)分野で大きな注目を集めています。しかし、英語以外の言語向けにLLMを訓練することは、大規模なコーパスの取得難易度や必要な計算リソースの観点から、大きな課題となっています。本論文では、これらの課題に対処し、コスト効率の良い方法で大規模な中国語言語モデルを訓練するために、クロスランガージ転移に基づくLLMであるChatFlowを提案します。我々は、中国語、英語、並列コーパスを組み合わせてLLaMA2モデルを継続的に訓練し、特に中国語言語モデルへの知識転移を促進するために、言語間表現の整合を図ります。さらに、動的データサンプラーを使用して、モデルを教師なし事前学習から教師あり微調整へと段階的に移行させます。実験結果は、我々のアプローチがモデルの収束を加速し、優れた性能を達成することを示しています。ChatFlowを人気のある中国語および英語のベンチマークで評価した結果、LLaMA-2-7Bで事後訓練された他の中国語モデルを上回る性能を示すことが確認されました。
English
Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.

Summary

AI-Generated Summary

PDF80December 15, 2024