Chinese Tiny LLM: Pretraining van een Chinees-gecentreerd Taalmodel op Grote Schaal
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
Auteurs: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Samenvatting
In deze studie introduceren we CT-LLM, een groot taalmodel (LLM) van 2B dat een cruciale verschuiving illustreert naar het prioriteren van de Chinese taal bij de ontwikkeling van LLM's. Uniek gestart vanaf nul, wijkt CT-LLM af van de conventionele methodologie door voornamelijk Chinese tekstuele gegevens te incorporeren, waarbij een uitgebreid corpus van 1.200 miljard tokens wordt gebruikt, waaronder 800 miljard Chinese tokens, 300 miljard Engelse tokens en 100 miljard code-tokens. Deze strategische samenstelling vergemakkelijkt de uitzonderlijke vaardigheid van het model in het begrijpen en verwerken van Chinees, een vermogen dat verder wordt versterkt door alignment-technieken. Met een opmerkelijke prestatie op de CHC-Bench blinkt CT-LLM uit in Chinese taaltaken en toont het zijn vaardigheid in het Engels via SFT. Dit onderzoek daagt het heersende paradigma uit van het trainen van LLM's voornamelijk op Engelse corpora en ze vervolgens aan te passen aan andere talen, waardoor de horizon voor LLM-trainingsmethodologieën wordt verbreed. Door het volledige proces van het trainen van een Chinese LLM open source te maken, inclusief een gedetailleerde gegevensverwerkingsprocedure met het verkregen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), een zorgvuldig gekozen multidisciplinair Chinese Hard Case Benchmark (CHC-Bench), en het 2B-grote Chinese Tiny LLM (CT-LLM), streven we ernaar om verder onderzoek en innovatie in zowel de academische wereld als de industrie te bevorderen, en zo de weg te effenen voor meer inclusieve en veelzijdige taalmodel.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.