Rapport technique de TeleChat2, TeleChat2.5 et T1

papers.abstract

Nous présentons la dernière série de modèles TeleChat : TeleChat2, TeleChat2.5 et T1, offrant une amélioration significative par rapport à leur prédécesseur, TeleChat. Malgré des changements minimes dans l'architecture du modèle, la nouvelle série réalise des gains de performance substantiels grâce à des stratégies de formation améliorées, tant en pré-entraînement qu'en post-entraînement. La série commence avec TeleChat2, qui subit un pré-entraînement sur 10 000 milliards de tokens de haute qualité et diversifiés. Cela est suivi par un Fine-Tuning Supervisé (SFT) et une Optimisation Directe des Préférences (DPO) pour renforcer davantage ses capacités. TeleChat2.5 et T1 étendent le pipeline en intégrant une phase de pré-entraînement continu avec des ensembles de données spécifiques à un domaine, combinée à un apprentissage par renforcement (RL) pour améliorer les performances dans les tâches de génération de code et de raisonnement mathématique. La variante T1 est conçue pour le raisonnement complexe, prenant en charge un raisonnement en chaîne de pensée (CoT) long et démontrant des améliorations substantielles en mathématiques et en codage. En revanche, TeleChat2.5 privilégie la vitesse, offrant une inférence rapide. Les deux modèles phares, T1 et TeleChat2.5, sont des architectures denses basées sur des Transformers avec 115 milliards de paramètres, montrant des avancées significatives dans le raisonnement et la performance générale des tâches par rapport au TeleChat original. Notamment, T1-115B surpasse des modèles propriétaires tels que o1-mini d'OpenAI et GPT-4o. Nous rendons publics TeleChat2, TeleChat2.5 et T1, y compris les versions post-entraînées avec 35 milliards et 115 milliards de paramètres, pour doter les développeurs et les chercheurs de modèles de langage de pointe adaptés à diverses applications.

English

We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.

Rapport technique de TeleChat2, TeleChat2.5 et T1

Technical Report of TeleChat2, TeleChat2.5 and T1

papers.abstract

Support