ChatPaper.aiChatPaper

Technischer Bericht zu TeleChat2, TeleChat2.5 und T1

Technical Report of TeleChat2, TeleChat2.5 and T1

July 24, 2025
papers.authors: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
cs.AI

papers.abstract

Wir stellen die neueste Serie der TeleChat-Modelle vor: TeleChat2, TeleChat2.5 und T1, die eine deutliche Verbesserung gegenüber ihrem Vorgänger, TeleChat, bieten. Trotz minimaler Änderungen an der Modellarchitektur erzielt die neue Serie erhebliche Leistungssteigerungen durch verbesserte Trainingsstrategien in den Vor- und Nachtrainingsphasen. Die Serie beginnt mit TeleChat2, das ein Vortraining mit 10 Billionen hochwertigen und vielfältigen Tokens durchläuft. Darauf folgen Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO), um die Fähigkeiten weiter zu verbessern. TeleChat2.5 und T1 erweitern die Pipeline durch die Einbindung einer kontinuierlichen Vortrainingsphase mit domänenspezifischen Datensätzen, kombiniert mit Reinforcement Learning (RL), um die Leistung bei Codegenerierung und mathematischen Denkaufgaben zu steigern. Die T1-Variante ist für komplexes Denken konzipiert, unterstützt lange Chain-of-Thought (CoT)-Schlussfolgerungen und zeigt deutliche Verbesserungen in Mathematik und Programmierung. Im Gegensatz dazu priorisiert TeleChat2.5 Geschwindigkeit und ermöglicht schnelle Inferenz. Beide Flaggschiffmodelle, T1 und TeleChat2.5, basieren auf dichten Transformer-Architekturen mit 115 Milliarden Parametern und demonstrieren erhebliche Fortschritte in der Denkfähigkeit und der allgemeinen Aufgabenleistung im Vergleich zum ursprünglichen TeleChat. Bemerkenswert ist, dass T1-115B proprietäre Modelle wie OpenAI's o1-mini und GPT-4o übertrifft. Wir veröffentlichen TeleChat2, TeleChat2.5 und T1, einschließlich nachtrainierter Versionen mit 35 Milliarden und 115 Milliarden Parametern, um Entwicklern und Forschern modernste Sprachmodelle für vielfältige Anwendungen zur Verfügung zu stellen.
English
We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.
PDF92July 25, 2025