TeleChat 기술 보고서
TeleChat Technical Report
January 8, 2024
저자: Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song
cs.AI
초록
본 기술 보고서에서는 30억, 70억, 120억 개의 파라미터를 가진 대규모 언어 모델(LLM) 컬렉션인 TeleChat을 소개합니다. 이 컬렉션은 사전 학습된 언어 모델과 인간의 선호도에 맞춰 미세 조정된 채팅 모델을 포함합니다. TeleChat은 영어와 중국어로 구성된 다양한 텍스트 컬렉션을 포함한 방대한 코퍼스에서 초기 사전 학습을 진행하며, 이는 수조 개의 토큰으로 이루어져 있습니다. 이후, 본문에서 상세히 설명하는 방법론에 따라 인간의 선호도에 맞춰 모델을 미세 조정합니다. TeleChat의 성능은 언어 이해, 수학, 추론, 코드 생성, 지식 기반 질문 응답 등 다양한 작업에서 평가되었습니다. 평가 결과, TeleChat은 다양한 공개 벤치마크에서 유사한 규모의 다른 오픈소스 모델과 비슷한 성능을 달성함을 확인했습니다. 대규모 언어 모델을 활용한 향후 연구와 응용을 지원하기 위해, 우리는 TeleChat의 70억 및 120억 변종의 미세 조정된 모델 체크포인트와 코드, 그리고 사전 학습 데이터의 일부를 공개 커뮤니티에 공개합니다.
English
In this technical report, we present TeleChat, a collection of large language
models (LLMs) with parameters of 3 billion, 7 billion and 12 billion. It
includes pretrained language models as well as fine-tuned chat models that is
aligned with human preferences. TeleChat is initially pretrained on an
extensive corpus containing a diverse collection of texts from both English and
Chinese languages, including trillions of tokens. Subsequently, the model
undergoes fine-tuning to align with human preferences, following a detailed
methodology that we describe. We evaluate the performance of TeleChat on
various tasks, including language understanding, mathematics, reasoning, code
generation, and knowledge-based question answering. Our findings indicate that
TeleChat achieves comparable performance to other open-source models of similar
size across a wide range of public benchmarks. To support future research and
applications utilizing LLMs, we release the fine-tuned model checkpoints of
TeleChat's 7B and 12B variant, along with code and a portion of our pretraining
data, to the public community.