TeleChat2, TeleChat2.5 및 T1의 기술 보고서
Technical Report of TeleChat2, TeleChat2.5 and T1
July 24, 2025
저자: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
cs.AI
초록
최신 TeleChat 모델 시리즈인 TeleChat2, TeleChat2.5, 그리고 T1을 소개합니다. 이들은 이전 버전인 TeleChat에 비해 상당한 업그레이드를 제공합니다. 모델 아키텍처에는 최소한의 변경만 가해졌지만, 새로운 시리즈는 사전 학습과 사후 학습 단계에서 강화된 훈련 전략을 통해 상당한 성능 향상을 달성했습니다. 이 시리즈는 10조 개의 고품질이고 다양한 토큰으로 사전 학습을 거친 TeleChat2로 시작됩니다. 이후 지도 미세 조정(SFT)과 직접 선호 최적화(DPO)를 통해 그 능력을 더욱 향상시킵니다. TeleChat2.5와 T1은 도메인 특화 데이터셋을 활용한 지속적 사전 학습 단계와 강화 학습(RL)을 결합하여 코드 생성 및 수학적 추론 작업에서의 성능을 개선합니다. T1 변종은 복잡한 추론을 위해 설계되었으며, 긴 사고의 연쇄(CoT) 추론을 지원하고 수학 및 코딩에서 상당한 개선을 보여줍니다. 반면, TeleChat2.5는 빠른 추론 속도를 우선시합니다. T1과 TeleChat2.5의 두 가지 주력 모델은 115B 매개변수를 가진 밀집 Transformer 기반 아키텍처로, 원래의 TeleChat에 비해 추론 및 일반 작업 성능에서 상당한 발전을 보여줍니다. 특히, T1-115B는 OpenAI의 o1-mini 및 GPT-4o와 같은 독점 모델을 능가합니다. 우리는 개발자와 연구자들이 다양한 애플리케이션에 맞춘 최첨단 언어 모델을 활용할 수 있도록 TeleChat2, TeleChat2.5 및 T1을 공개합니다. 여기에는 35B 및 115B 매개변수를 가진 사후 학습 버전도 포함됩니다.
English
We introduce the latest series of TeleChat models: TeleChat2,
TeleChat2.5, and T1, offering a significant upgrade over
their predecessor, TeleChat. Despite minimal changes to the model architecture,
the new series achieves substantial performance gains through enhanced training
strategies in both pre-training and post-training stages. The series begins
with TeleChat2, which undergoes pretraining on 10 trillion
high-quality and diverse tokens. This is followed by Supervised Fine-Tuning
(SFT) and Direct Preference Optimization (DPO) to further enhance its
capabilities. TeleChat2.5 and T1 expand the pipeline by
incorporating a continual pretraining phase with domain-specific datasets,
combined with reinforcement learning (RL) to improve performance in code
generation and mathematical reasoning tasks. The T1 variant is
designed for complex reasoning, supporting long Chain-of-Thought (CoT)
reasoning and demonstrating substantial improvements in mathematics and coding.
In contrast, TeleChat2.5 prioritizes speed, delivering rapid
inference. Both flagship models of T1 and TeleChat2.5 are
dense Transformer-based architectures with 115B parameters, showcasing
significant advancements in reasoning and general task performance compared to
the original TeleChat. Notably, T1-115B outperform proprietary models
such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2,
TeleChat2.5 and T1, including post-trained versions with 35B
and 115B parameters, to empower developers and researchers with
state-of-the-art language models tailored for diverse applications.