Chinese Tiny LLM: Pre-addestramento di un Modello Linguistico di Grande Scala Centrato sul Cinese

Abstract

In questo studio, presentiamo CT-LLM, un modello linguistico di grandi dimensioni (LLM) da 2 miliardi di parametri che rappresenta un cambiamento cruciale verso la priorità della lingua cinese nello sviluppo degli LLM. Iniziato in modo unico da zero, CT-LLM si discosta dalla metodologia convenziale incorporando principalmente dati testuali in cinese, utilizzando un corpus esteso di 1.200 miliardi di token, inclusi 800 miliardi di token in cinese, 300 miliardi in inglese e 100 miliardi di token di codice. Questa composizione strategica facilita l'eccezionale competenza del modello nella comprensione e nell'elaborazione del cinese, una capacità ulteriormente potenziata attraverso tecniche di allineamento. Dimostrando prestazioni notevoli sul CHC-Bench, CT-LLM eccelle nei compiti linguistici in cinese e mostra la sua abilità in inglese attraverso il fine-tuning supervisionato (SFT). Questa ricerca sfida il paradigma prevalente di addestrare gli LLM principalmente su corpora in inglese per poi adattarli ad altre lingue, ampliando gli orizzonti delle metodologie di addestramento degli LLM. Rendendo open-source l'intero processo di addestramento di un LLM in cinese, inclusa una procedura dettagliata di elaborazione dei dati con il Massive Appropriate Pretraining Chinese Corpus (MAP-CC), un benchmark multidisciplinare ben selezionato di casi complessi in cinese (CHC-Bench) e il modello CT-LLM da 2 miliardi di parametri, miriamo a favorire ulteriori esplorazioni e innovazioni sia in ambito accademico che industriale, aprendo la strada a modelli linguistici più inclusivi e versatili.

English

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.

Chinese Tiny LLM: Pre-addestramento di un Modello Linguistico di Grande Scala Centrato sul Cinese

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

Abstract

Support