Chinesisches Winziges LLM: Vortrainieren eines chinesisch-zentrierten Großen Sprachmodells

papers.abstract

In dieser Studie stellen wir CT-LLM vor, ein 2B großes Sprachmodell (LLM), das einen entscheidenden Schritt hin zur Priorisierung der chinesischen Sprache bei der Entwicklung von LLMs darstellt. Einzigartig von Grund auf initiiert, weicht CT-LLM von der herkömmlichen Methodik ab, indem es hauptsächlich chinesische Textdaten einbezieht und einen umfangreichen Korpus von 1.200 Milliarden Tokens verwendet, darunter 800 Milliarden chinesische Tokens, 300 Milliarden englische Tokens und 100 Milliarden Code-Tokens. Diese strategische Zusammensetzung erleichtert die außergewöhnliche Kompetenz des Modells im Verstehen und Verarbeiten von Chinesisch, eine Fähigkeit, die durch Ausrichtungstechniken weiter verbessert wird. Durch die herausragende Leistung im CHC-Bench zeigt CT-LLM herausragende Leistungen bei chinesischen Sprachaufgaben und demonstriert seine Geschicklichkeit im Englischen durch SFT. Diese Forschung stellt das vorherrschende Paradigma in Frage, LLMs hauptsächlich auf englischen Korpora zu trainieren und sie dann an andere Sprachen anzupassen, und erweitert die Horizonte für LLM-Trainingsmethoden. Durch die Open-Source-Bereitstellung des gesamten Prozesses zur Schulung eines chinesischen LLM, einschließlich eines detaillierten Datenverarbeitungsverfahrens mit dem erhaltenen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), eines sorgfältig ausgewählten multidisziplinären Chinese Hard Case Benchmark (CHC-Bench) und des 2B-großen chinesischen Tiny LLM (CT-LLM), zielen wir darauf ab, weitere Erkundungen und Innovationen sowohl in der akademischen Welt als auch in der Industrie zu fördern und den Weg für inklusivere und vielseitigere Sprachmodelle zu ebnen.

English

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.

Chinesisches Winziges LLM: Vortrainieren eines chinesisch-zentrierten Großen Sprachmodells

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

papers.abstract

Support