Chinese Tiny LLM: Pretraining van een Chinees-gecentreerd Taalmodel op Grote Schaal

Samenvatting

In deze studie introduceren we CT-LLM, een groot taalmodel (LLM) van 2B dat een cruciale verschuiving illustreert naar het prioriteren van de Chinese taal bij de ontwikkeling van LLM's. Uniek gestart vanaf nul, wijkt CT-LLM af van de conventionele methodologie door voornamelijk Chinese tekstuele gegevens te incorporeren, waarbij een uitgebreid corpus van 1.200 miljard tokens wordt gebruikt, waaronder 800 miljard Chinese tokens, 300 miljard Engelse tokens en 100 miljard code-tokens. Deze strategische samenstelling vergemakkelijkt de uitzonderlijke vaardigheid van het model in het begrijpen en verwerken van Chinees, een vermogen dat verder wordt versterkt door alignment-technieken. Met een opmerkelijke prestatie op de CHC-Bench blinkt CT-LLM uit in Chinese taaltaken en toont het zijn vaardigheid in het Engels via SFT. Dit onderzoek daagt het heersende paradigma uit van het trainen van LLM's voornamelijk op Engelse corpora en ze vervolgens aan te passen aan andere talen, waardoor de horizon voor LLM-trainingsmethodologieën wordt verbreed. Door het volledige proces van het trainen van een Chinese LLM open source te maken, inclusief een gedetailleerde gegevensverwerkingsprocedure met het verkregen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), een zorgvuldig gekozen multidisciplinair Chinese Hard Case Benchmark (CHC-Bench), en het 2B-grote Chinese Tiny LLM (CT-LLM), streven we ernaar om verder onderzoek en innovatie in zowel de academische wereld als de industrie te bevorderen, en zo de weg te effenen voor meer inclusieve en veelzijdige taalmodel.

English

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.

Chinese Tiny LLM: Pretraining van een Chinees-gecentreerd Taalmodel op Grote Schaal

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

Samenvatting

Support