ChatPaper.aiChatPaper

Relatório Técnico do TeleChat2, TeleChat2.5 e T1

Technical Report of TeleChat2, TeleChat2.5 and T1

July 24, 2025
Autores: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
cs.AI

Resumo

Apresentamos a mais recente série de modelos TeleChat: TeleChat2, TeleChat2.5 e T1, que oferecem uma melhoria significativa em relação ao seu antecessor, o TeleChat. Apesar de mudanças mínimas na arquitetura do modelo, a nova série alcança ganhos substanciais de desempenho por meio de estratégias de treinamento aprimoradas, tanto na fase de pré-treinamento quanto na pós-treinamento. A série começa com o TeleChat2, que passa por um pré-treinamento com 10 trilhões de tokens de alta qualidade e diversificados. Isso é seguido por Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferência (DPO) para aprimorar ainda mais suas capacidades. O TeleChat2.5 e o T1 expandem o pipeline ao incorporar uma fase de pré-treinamento contínuo com conjuntos de dados específicos de domínio, combinados com aprendizado por reforço (RL) para melhorar o desempenho em tarefas de geração de código e raciocínio matemático. A variante T1 é projetada para raciocínio complexo, suportando longas cadeias de raciocínio (Chain-of-Thought, CoT) e demonstrando melhorias substanciais em matemática e codificação. Em contraste, o TeleChat2.5 prioriza a velocidade, oferecendo inferência rápida. Ambos os modelos principais, T1 e TeleChat2.5, são arquiteturas densas baseadas em Transformers com 115 bilhões de parâmetros, mostrando avanços significativos em raciocínio e desempenho geral de tarefas em comparação com o TeleChat original. Notavelmente, o T1-115B supera modelos proprietários como o o1-mini da OpenAI e o GPT-4o. Disponibilizamos publicamente o TeleChat2, TeleChat2.5 e T1, incluindo versões pós-treinadas com 35 bilhões e 115 bilhões de parâmetros, para capacitar desenvolvedores e pesquisadores com modelos de linguagem de ponta adaptados para diversas aplicações.
English
We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.
PDF92July 25, 2025