Rapport Technique de TeleChat
TeleChat Technical Report
January 8, 2024
Auteurs: Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song
cs.AI
Résumé
Dans ce rapport technique, nous présentons TeleChat, une collection de grands modèles de langage (LLM) comportant respectivement 3 milliards, 7 milliards et 12 milliards de paramètres. Cela inclut des modèles de langage pré-entraînés ainsi que des modèles de conversation affinés, alignés sur les préférences humaines. TeleChat est initialement pré-entraîné sur un vaste corpus contenant une diversité de textes en anglais et en chinois, incluant des milliers de milliards de tokens. Par la suite, le modèle est affiné pour s'aligner sur les préférences humaines, suivant une méthodologie détaillée que nous décrivons. Nous évaluons les performances de TeleChat sur diverses tâches, notamment la compréhension du langage, les mathématiques, le raisonnement, la génération de code et la réponse à des questions basées sur des connaissances. Nos résultats indiquent que TeleChat atteint des performances comparables à d'autres modèles open-source de taille similaire sur un large éventail de benchmarks publics. Pour soutenir les recherches futures et les applications utilisant des LLM, nous mettons à disposition de la communauté publique les points de contrôle des modèles affinés des variantes 7B et 12B de TeleChat, ainsi que le code et une partie de nos données de pré-entraînement.
English
In this technical report, we present TeleChat, a collection of large language
models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It
includes pretrained language models as well as fine-tuned chat models that is
aligned with human preferences. TeleChat is initially pretrained on an
extensive corpus containing a diverse collection of texts from both English and
Chinese languages, including trillions of tokens. Subsequently, the model
undergoes fine-tuning to align with human preferences, following a detailed
methodology that we describe. We evaluate the performance of TeleChat on
various tasks, including language understanding, mathematics, reasoning, code
generation, and knowledge-based question answering. Our findings indicate that
TeleChat achieves comparable performance to other open-source models of similar
size across a wide range of public benchmarks. To support future research and
applications utilizing LLMs, we release the fine-tuned model checkpoints of
TeleChat's 7B and 12B variant, along with code and a portion of our pretraining
data, to the public community.