Chinesisches Winziges LLM: Vortrainieren eines chinesisch-zentrierten Großen Sprachmodells
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
Autoren: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Zusammenfassung
In dieser Studie stellen wir CT-LLM vor, ein 2B großes Sprachmodell (LLM), das einen entscheidenden Schritt hin zur Priorisierung der chinesischen Sprache bei der Entwicklung von LLMs darstellt. Einzigartig von Grund auf initiiert, weicht CT-LLM von der herkömmlichen Methodik ab, indem es hauptsächlich chinesische Textdaten einbezieht und einen umfangreichen Korpus von 1.200 Milliarden Tokens verwendet, darunter 800 Milliarden chinesische Tokens, 300 Milliarden englische Tokens und 100 Milliarden Code-Tokens. Diese strategische Zusammensetzung erleichtert die außergewöhnliche Kompetenz des Modells im Verstehen und Verarbeiten von Chinesisch, eine Fähigkeit, die durch Ausrichtungstechniken weiter verbessert wird. Durch die herausragende Leistung im CHC-Bench zeigt CT-LLM herausragende Leistungen bei chinesischen Sprachaufgaben und demonstriert seine Geschicklichkeit im Englischen durch SFT. Diese Forschung stellt das vorherrschende Paradigma in Frage, LLMs hauptsächlich auf englischen Korpora zu trainieren und sie dann an andere Sprachen anzupassen, und erweitert die Horizonte für LLM-Trainingsmethoden. Durch die Open-Source-Bereitstellung des gesamten Prozesses zur Schulung eines chinesischen LLM, einschließlich eines detaillierten Datenverarbeitungsverfahrens mit dem erhaltenen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), eines sorgfältig ausgewählten multidisziplinären Chinese Hard Case Benchmark (CHC-Bench) und des 2B-großen chinesischen Tiny LLM (CT-LLM), zielen wir darauf ab, weitere Erkundungen und Innovationen sowohl in der akademischen Welt als auch in der Industrie zu fördern und den Weg für inklusivere und vielseitigere Sprachmodelle zu ebnen.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.Summary
AI-Generated Summary