Rapporto Tecnico di TeleChat2, TeleChat2.5 e T1

Abstract

Presentiamo l'ultima serie di modelli TeleChat: TeleChat2, TeleChat2.5 e T1, che rappresentano un significativo miglioramento rispetto al loro predecessore, TeleChat. Nonostante i minimi cambiamenti apportati all'architettura del modello, la nuova serie raggiunge sostanziali guadagni di prestazioni grazie a strategie di addestramento potenziate sia nella fase di pre-training che in quella di post-training. La serie inizia con TeleChat2, che viene sottoposto a pre-training su 10 trilioni di token di alta qualità e diversificati. Segue poi il Fine-Tuning Supervisionato (SFT) e l'Optimizzazione Diretta delle Preferenze (DPO) per migliorarne ulteriormente le capacità. TeleChat2.5 e T1 ampliano la pipeline incorporando una fase di pre-training continuo con dataset specifici per dominio, combinata con l'apprendimento per rinforzo (RL) per migliorare le prestazioni nelle attività di generazione di codice e ragionamento matematico. La variante T1 è progettata per il ragionamento complesso, supportando lunghi processi di ragionamento a catena (Chain-of-Thought, CoT) e dimostrando sostanziali miglioramenti in matematica e programmazione. Al contrario, TeleChat2.5 privilegia la velocità, offrendo inferenze rapide. Entrambi i modelli di punta, T1 e TeleChat2.5, sono architetture dense basate su Transformer con 115 miliardi di parametri, che mostrano significativi progressi nel ragionamento e nelle prestazioni generali rispetto al TeleChat originale. In particolare, T1-115B supera modelli proprietari come o1-mini di OpenAI e GPT-4o. Rilasciamo pubblicamente TeleChat2, TeleChat2.5 e T1, includendo versioni post-addestrate con 35 miliardi e 115 miliardi di parametri, per fornire a sviluppatori e ricercatori modelli linguistici all'avanguardia adatti a diverse applicazioni.

English

We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.

Rapporto Tecnico di TeleChat2, TeleChat2.5 e T1

Technical Report of TeleChat2, TeleChat2.5 and T1

Abstract

Support