중국어 중심 소형 언어 모델: 중국어 중심 대형 언어 모델 사전 학습
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
저자: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
초록
본 연구에서는 중국어를 우선시하는 대형 언어 모델(LLM) 개발로의 중대한 전환을 보여주는 2B 규모의 CT-LLM을 소개한다. 기존 방법론과 달리, CT-LLM은 처음부터 중국어 텍스트 데이터를 주로 활용하여 개발되었으며, 1,2000억 개의 토큰으로 구성된 방대한 코퍼스를 사용했다. 이 코퍼스는 8000억 개의 중국어 토큰, 3000억 개의 영어 토큰, 그리고 1000억 개의 코드 토큰으로 구성되어 있다. 이러한 전략적 구성은 모델의 중국어 이해 및 처리 능력을 뛰어나게 하며, 정렬 기법을 통해 더욱 강화되었다. CT-LLM은 CHC-Bench에서 뛰어난 성능을 보이며 중국어 작업에서 탁월한 성과를 거두었고, SFT를 통해 영어에서도 능숙함을 보여준다. 이 연구는 주로 영어 코퍼스로 LLM을 훈련한 후 다른 언어로 적응시키는 기존 패러다임에 도전하며, LLM 훈련 방법론의 지평을 넓힌다. 중국어 LLM 훈련의 전체 과정을 오픈소스로 공개함으로써, 획득한 Massive Appropriate Pretraining Chinese Corpus(MAP-CC), 잘 선정된 다학제적 Chinese Hard Case Benchmark(CHC-Bench), 그리고 2B 규모의 Chinese Tiny LLM(CT-LLM)을 포함한 상세한 데이터 처리 절차를 제공하여 학계와 산업계에서의 추가 탐구와 혁신을 촉진하고, 더 포괄적이고 다재다능한 언어 모델을 위한 길을 열고자 한다.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.Summary
AI-Generated Summary