Rapporto Tecnico di TeleChat2, TeleChat2.5 e T1
Technical Report of TeleChat2, TeleChat2.5 and T1
July 24, 2025
Autori: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
cs.AI
Abstract
Presentiamo l'ultima serie di modelli TeleChat: TeleChat2, TeleChat2.5 e T1, che rappresentano un significativo miglioramento rispetto al loro predecessore, TeleChat. Nonostante i minimi cambiamenti apportati all'architettura del modello, la nuova serie raggiunge sostanziali guadagni di prestazioni grazie a strategie di addestramento potenziate sia nella fase di pre-training che in quella di post-training. La serie inizia con TeleChat2, che viene sottoposto a pre-training su 10 trilioni di token di alta qualità e diversificati. Segue poi il Fine-Tuning Supervisionato (SFT) e l'Optimizzazione Diretta delle Preferenze (DPO) per migliorarne ulteriormente le capacità. TeleChat2.5 e T1 ampliano la pipeline incorporando una fase di pre-training continuo con dataset specifici per dominio, combinata con l'apprendimento per rinforzo (RL) per migliorare le prestazioni nelle attività di generazione di codice e ragionamento matematico. La variante T1 è progettata per il ragionamento complesso, supportando lunghi processi di ragionamento a catena (Chain-of-Thought, CoT) e dimostrando sostanziali miglioramenti in matematica e programmazione. Al contrario, TeleChat2.5 privilegia la velocità, offrendo inferenze rapide. Entrambi i modelli di punta, T1 e TeleChat2.5, sono architetture dense basate su Transformer con 115 miliardi di parametri, che mostrano significativi progressi nel ragionamento e nelle prestazioni generali rispetto al TeleChat originale. In particolare, T1-115B supera modelli proprietari come o1-mini di OpenAI e GPT-4o. Rilasciamo pubblicamente TeleChat2, TeleChat2.5 e T1, includendo versioni post-addestrate con 35 miliardi e 115 miliardi di parametri, per fornire a sviluppatori e ricercatori modelli linguistici all'avanguardia adatti a diverse applicazioni.
English
We introduce the latest series of TeleChat models: TeleChat2,
TeleChat2.5, and T1, offering a significant upgrade over
their predecessor, TeleChat. Despite minimal changes to the model architecture,
the new series achieves substantial performance gains through enhanced training
strategies in both pre-training and post-training stages. The series begins
with TeleChat2, which undergoes pretraining on 10 trillion
high-quality and diverse tokens. This is followed by Supervised Fine-Tuning
(SFT) and Direct Preference Optimization (DPO) to further enhance its
capabilities. TeleChat2.5 and T1 expand the pipeline by
incorporating a continual pretraining phase with domain-specific datasets,
combined with reinforcement learning (RL) to improve performance in code
generation and mathematical reasoning tasks. The T1 variant is
designed for complex reasoning, supporting long Chain-of-Thought (CoT)
reasoning and demonstrating substantial improvements in mathematics and coding.
In contrast, TeleChat2.5 prioritizes speed, delivering rapid
inference. Both flagship models of T1 and TeleChat2.5 are
dense Transformer-based architectures with 115B parameters, showcasing
significant advancements in reasoning and general task performance compared to
the original TeleChat. Notably, T1-115B outperform proprietary models
such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2,
TeleChat2.5 and T1, including post-trained versions with 35B
and 115B parameters, to empower developers and researchers with
state-of-the-art language models tailored for diverse applications.