Chinese Tiny LLM: Pré-treinamento de um Modelo de Linguagem de Grande Escala Centrado no Chinês

Resumo

Neste estudo, apresentamos o CT-LLM, um modelo de linguagem de grande escala (LLM) de 2 bilhões de parâmetros que ilustra uma mudança crucial no sentido de priorizar o idioma chinês no desenvolvimento de LLMs. Iniciado exclusivamente do zero, o CT-LLM diverge da metodologia convencional ao incorporar principalmente dados textuais em chinês, utilizando um extenso corpus de 1,2 trilhão de tokens, incluindo 800 bilhões de tokens em chinês, 300 bilhões em inglês e 100 bilhões em código. Essa composição estratégica facilita a proficiência excepcional do modelo na compreensão e processamento do chinês, uma capacidade ainda mais aprimorada por meio de técnicas de alinhamento. Demonstrando desempenho notável no CHC-Bench, o CT-LLM se destaca em tarefas de linguagem chinesa e exibe sua habilidade em inglês por meio de SFT (Supervised Fine-Tuning). Esta pesquisa desafia o paradigma predominante de treinar LLMs principalmente em corpora em inglês e, em seguida, adaptá-los a outros idiomas, ampliando os horizontes das metodologias de treinamento de LLMs. Ao disponibilizar publicamente todo o processo de treinamento de um LLM em chinês, incluindo um procedimento detalhado de processamento de dados com o Massive Appropriate Pretraining Chinese Corpus (MAP-CC), um benchmark multidisciplinar de casos difíceis em chinês bem selecionado (CHC-Bench) e o Chinese Tiny LLM (CT-LLM) de 2 bilhões de parâmetros, nosso objetivo é fomentar maior exploração e inovação tanto na academia quanto na indústria, abrindo caminho para modelos de linguagem mais inclusivos e versáteis.

English

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.

Chinese Tiny LLM: Pré-treinamento de um Modelo de Linguagem de Grande Escala Centrado no Chinês

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

Resumo

Support