ChatPaper.aiChatPaper

LLaMAを超えて:言語能力転移に関する実証的研究

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

January 2, 2024
著者: Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang
cs.AI

要旨

近年、ChatGPTに代表される大規模言語モデル(LLM)において、複雑なタスクに対する顕著な能力が示され、大きな進展が見られています。しかし、多くの主流LLM(例:LLaMA)は英語中心のコーパスで事前学習されており、他の非英語言語での性能が制限されています。本論文では、言語生成能力と指示追従能力を非英語言語に効果的に転移させる方法に焦点を当てます。この問いに答えるため、LLaMAを基盤とした広範な実証研究を行い、1440 GPU時間以上を費やしました。語彙拡張、追加事前学習、指示チューニングといった主要な要因が転移に与える影響を分析しました。モデルの知識レベルを正確に評価するため、C-Eval、MMLU、AGI-Eval、GAOKAO-Benchという4つの広く使用されている標準化されたテストベンチマークを採用しました。さらに、LLM-Evalという17の多様なカテゴリーからなる指示タスクベンチマークに基づき、モデルの応答品質を精度、流暢さ、情報量、論理的整合性、無害性といった観点から包括的に評価しました。評価結果から、事前学習データの1%未満で、知識の整合性と応答品質の両面において、最先端の転移モデルに匹敵する性能を達成できることが示されました。さらに、13の低資源言語における実験結果も同様の傾向を示しています。本実験が明らかにした結論が、非英語LLMの開発に役立つことを期待しています。
English
In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.

Summary

AI-Generated Summary

PDF564December 15, 2024