Chinese Tiny LLM: Pre-addestramento di un Modello Linguistico di Grande Scala Centrato sul Cinese
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
Autori: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Abstract
In questo studio, presentiamo CT-LLM, un modello linguistico di grandi dimensioni (LLM) da 2 miliardi di parametri che rappresenta un cambiamento cruciale verso la priorità della lingua cinese nello sviluppo degli LLM. Iniziato in modo unico da zero, CT-LLM si discosta dalla metodologia convenziale incorporando principalmente dati testuali in cinese, utilizzando un corpus esteso di 1.200 miliardi di token, inclusi 800 miliardi di token in cinese, 300 miliardi in inglese e 100 miliardi di token di codice. Questa composizione strategica facilita l'eccezionale competenza del modello nella comprensione e nell'elaborazione del cinese, una capacità ulteriormente potenziata attraverso tecniche di allineamento. Dimostrando prestazioni notevoli sul CHC-Bench, CT-LLM eccelle nei compiti linguistici in cinese e mostra la sua abilità in inglese attraverso il fine-tuning supervisionato (SFT). Questa ricerca sfida il paradigma prevalente di addestrare gli LLM principalmente su corpora in inglese per poi adattarli ad altre lingue, ampliando gli orizzonti delle metodologie di addestramento degli LLM. Rendendo open-source l'intero processo di addestramento di un LLM in cinese, inclusa una procedura dettagliata di elaborazione dei dati con il Massive Appropriate Pretraining Chinese Corpus (MAP-CC), un benchmark multidisciplinare ben selezionato di casi complessi in cinese (CHC-Bench) e il modello CT-LLM da 2 miliardi di parametri, miriamo a favorire ulteriori esplorazioni e innovazioni sia in ambito accademico che industriale, aprendo la strada a modelli linguistici più inclusivi e versatili.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.