ChatPaper.aiChatPaper

Informe Técnico de TeleChat

TeleChat Technical Report

January 8, 2024
Autores: Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song
cs.AI

Resumen

En este informe técnico, presentamos TeleChat, una colección de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con parámetros de 3 mil millones, 7 mil millones y 12 mil millones. Incluye modelos de lenguaje preentrenados, así como modelos de chat ajustados que están alineados con las preferencias humanas. TeleChat se preentrena inicialmente en un corpus extenso que contiene una diversa colección de textos en inglés y chino, incluyendo billones de tokens. Posteriormente, el modelo se somete a un ajuste fino para alinearse con las preferencias humanas, siguiendo una metodología detallada que describimos. Evaluamos el rendimiento de TeleChat en diversas tareas, incluyendo comprensión del lenguaje, matemáticas, razonamiento, generación de código y respuestas a preguntas basadas en conocimiento. Nuestros hallazgos indican que TeleChat logra un rendimiento comparable al de otros modelos de código abierto de tamaño similar en una amplia gama de benchmarks públicos. Para apoyar futuras investigaciones y aplicaciones que utilicen LLMs, liberamos los puntos de control de los modelos ajustados de las variantes de 7B y 12B de TeleChat, junto con el código y una porción de nuestros datos de preentrenamiento, a la comunidad pública.
English
In this technical report, we present TeleChat, a collection of large language models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It includes pretrained language models as well as fine-tuned chat models that is aligned with human preferences. TeleChat is initially pretrained on an extensive corpus containing a diverse collection of texts from both English and Chinese languages, including trillions of tokens. Subsequently, the model undergoes fine-tuning to align with human preferences, following a detailed methodology that we describe. We evaluate the performance of TeleChat on various tasks, including language understanding, mathematics, reasoning, code generation, and knowledge-based question answering. Our findings indicate that TeleChat achieves comparable performance to other open-source models of similar size across a wide range of public benchmarks. To support future research and applications utilizing LLMs, we release the fine-tuned model checkpoints of TeleChat's 7B and 12B variant, along with code and a portion of our pretraining data, to the public community.
PDF80December 15, 2024