Chinese Tiny LLM: Pré-treinamento de um Modelo de Linguagem de Grande Escala Centrado no Chinês
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
Autores: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Resumo
Neste estudo, apresentamos o CT-LLM, um modelo de linguagem de grande escala (LLM) de 2 bilhões de parâmetros que ilustra uma mudança crucial no sentido de priorizar o idioma chinês no desenvolvimento de LLMs. Iniciado exclusivamente do zero, o CT-LLM diverge da metodologia convencional ao incorporar principalmente dados textuais em chinês, utilizando um extenso corpus de 1,2 trilhão de tokens, incluindo 800 bilhões de tokens em chinês, 300 bilhões em inglês e 100 bilhões em código. Essa composição estratégica facilita a proficiência excepcional do modelo na compreensão e processamento do chinês, uma capacidade ainda mais aprimorada por meio de técnicas de alinhamento. Demonstrando desempenho notável no CHC-Bench, o CT-LLM se destaca em tarefas de linguagem chinesa e exibe sua habilidade em inglês por meio de SFT (Supervised Fine-Tuning). Esta pesquisa desafia o paradigma predominante de treinar LLMs principalmente em corpora em inglês e, em seguida, adaptá-los a outros idiomas, ampliando os horizontes das metodologias de treinamento de LLMs. Ao disponibilizar publicamente todo o processo de treinamento de um LLM em chinês, incluindo um procedimento detalhado de processamento de dados com o Massive Appropriate Pretraining Chinese Corpus (MAP-CC), um benchmark multidisciplinar de casos difíceis em chinês bem selecionado (CHC-Bench) e o Chinese Tiny LLM (CT-LLM) de 2 bilhões de parâmetros, nosso objetivo é fomentar maior exploração e inovação tanto na academia quanto na indústria, abrindo caminho para modelos de linguagem mais inclusivos e versáteis.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.