Chinese Tiny LLM: 中国語中心の大規模言語モデルの事前学習
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
著者: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
要旨
本研究では、中国語を優先的に扱う大規模言語モデル(LLM)開発への重要な転換を示す2BサイズのLLM「CT-LLM」を紹介する。CT-LLMは従来の手法とは異なり、ゼロから構築され、1,2000億トークン(うち中国語8000億トークン、英語3000億トークン、コード1000億トークン)を含む大規模なコーパスを主に中国語テキストデータとして活用している。この戦略的な構成により、モデルは中国語の理解と処理において卓越した能力を発揮し、アライメント技術によってさらに強化されている。CT-LLMはCHC-Benchにおいて顕著な性能を示し、中国語タスクで優れた結果を達成するとともに、SFTを通じて英語処理の熟練度も示している。本研究は、主に英語コーパスでLLMを訓練し、その後他の言語に適応させるという従来のパラダイムに挑戦し、LLM訓練手法の地平を広げるものである。中国語LLMの訓練プロセス全体をオープンソース化し、取得した大規模適切事前学習中国語コーパス(MAP-CC)、厳選された多分野中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順を公開することで、学界と産業界におけるさらなる探求と革新を促進し、より包括的で多用途な言語モデルへの道を開くことを目指している。
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.Summary
AI-Generated Summary