Китайская модель Chinese Tiny LLM: Предварительное обучение крупной языковой модели с акцентом на китайский язык
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
April 5, 2024
Авторы: Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Аннотация
В данном исследовании мы представляем CT-LLM, 2B большую языковую модель (LLM), которая демонстрирует переломное смещение в сторону приоритета китайского языка в развитии LLM. Уникально начатая с нуля, CT-LLM отличается от традиционной методологии в основном за счет включения китайских текстовых данных, используя обширный корпус из 1,200 миллиарда токенов, включая 800 миллиардов китайских токенов, 300 миллиардов английских токенов и 100 миллиардов токенов кода. Этот стратегический состав облегчает исключительную профессиональность модели в понимании и обработке китайского языка, способность, дополнительно улучшенная методами выравнивания. Проявляя выдающуюся производительность на CHC-Bench, CT-LLM выделяется в задачах на китайском языке и демонстрирует свою искусность на английском языке через SFT. Это исследование бросает вызов преобладающей парадигме обучения LLM в основном на английских корпусах, а затем их адаптации к другим языкам, расширяя горизонты методологий обучения LLM. Публикуя в открытом доступе полный процесс обучения китайской LLM, включая подробную процедуру обработки данных с полученным массивным соответствующим предварительным обучением китайского корпуса (MAP-CC), тщательно подобранный междисциплинарный китайский трудный бенчмарк (CHC-Bench) и 2B-размерную китайскую крошечную LLM (CT-LLM), мы стремимся способствовать дальнейшему исследованию и инновациям как в академии, так и в индустрии, укладывая путь для более инклюзивных и универсальных языковых моделей.
English
In this study, we introduce CT-LLM, a 2B large language model (LLM) that
illustrates a pivotal shift towards prioritizing the Chinese language in
developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the
conventional methodology by primarily incorporating Chinese textual data,
utilizing an extensive corpus of 1,200 billion tokens, including 800 billion
Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This
strategic composition facilitates the model's exceptional proficiency in
understanding and processing Chinese, a capability further enhanced through
alignment techniques. Demonstrating remarkable performance on the CHC-Bench,
CT-LLM excels in Chinese language tasks, and showcases its adeptness in English
through SFT. This research challenges the prevailing paradigm of training LLMs
predominantly on English corpora and then adapting them to other languages,
broadening the horizons for LLM training methodologies. By open-sourcing the
full process of training a Chinese LLM, including a detailed data processing
procedure with the obtained Massive Appropriate Pretraining Chinese Corpus
(MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark
(CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster
further exploration and innovation in both academia and industry, paving the
way for more inclusive and versatile language models.