ChatPaper.aiChatPaper

Informe Técnico de TeleChat2, TeleChat2.5 y T1

Technical Report of TeleChat2, TeleChat2.5 and T1

July 24, 2025
Autores: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
cs.AI

Resumen

Presentamos la última serie de modelos TeleChat: TeleChat2, TeleChat2.5 y T1, que ofrecen una mejora significativa respecto a su predecesor, TeleChat. A pesar de los cambios mínimos en la arquitectura del modelo, la nueva serie logra avances sustanciales en el rendimiento mediante estrategias de entrenamiento mejoradas en las etapas de preentrenamiento y postentrenamiento. La serie comienza con TeleChat2, que se somete a un preentrenamiento con 10 billones de tokens de alta calidad y diversidad. Esto es seguido por un Ajuste Fino Supervisado (SFT) y una Optimización Directa de Preferencias (DPO) para mejorar aún más sus capacidades. TeleChat2.5 y T1 amplían el proceso al incorporar una fase de preentrenamiento continuo con conjuntos de datos específicos de dominio, combinado con aprendizaje por refuerzo (RL) para mejorar el rendimiento en tareas de generación de código y razonamiento matemático. La variante T1 está diseñada para razonamiento complejo, soportando cadenas largas de razonamiento (Chain-of-Thought, CoT) y demostrando mejoras sustanciales en matemáticas y codificación. En contraste, TeleChat2.5 prioriza la velocidad, ofreciendo inferencia rápida. Ambos modelos principales, T1 y TeleChat2.5, están basados en arquitecturas densas de Transformers con 115B parámetros, mostrando avances significativos en razonamiento y rendimiento general de tareas en comparación con el TeleChat original. Es notable que T1-115B supera a modelos propietarios como el o1-mini de OpenAI y GPT-4o. Publicamos TeleChat2, TeleChat2.5 y T1, incluyendo versiones postentrenadas con 35B y 115B parámetros, para empoderar a desarrolladores e investigadores con modelos de lenguaje de vanguardia adaptados para diversas aplicaciones.
English
We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.
PDF92July 25, 2025