Technisch Rapport van TeleChat2, TeleChat2.5 en T1

Samenvatting

We introduceren de nieuwste serie TeleChat-modellen: TeleChat2, TeleChat2.5 en T1, die een aanzienlijke upgrade bieden ten opzichte van hun voorganger, TeleChat. Ondanks minimale wijzigingen in de modelarchitectuur behaalt de nieuwe serie aanzienlijke prestatieverbeteringen door verbeterde trainingsstrategieën in zowel de pre-training als de post-training fasen. De serie begint met TeleChat2, dat wordt voorgetraind op 10 biljoen hoogwaardige en diverse tokens. Dit wordt gevolgd door Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO) om de mogelijkheden verder te verbeteren. TeleChat2.5 en T1 breiden de pijplijn uit door een voortgezette pre-training fase met domeinspecifieke datasets te incorporeren, gecombineerd met reinforcement learning (RL) om de prestaties in codegeneratie en wiskundige redeneertaken te verbeteren. De T1-variant is ontworpen voor complex redeneren, ondersteunt lange Chain-of-Thought (CoT) redenering en toont aanzienlijke verbeteringen in wiskunde en codering. Daarentegen geeft TeleChat2.5 prioriteit aan snelheid en levert het snelle inferentie. Beide vlaggenschipmodellen van T1 en TeleChat2.5 zijn dichte Transformer-gebaseerde architecturen met 115B parameters, die aanzienlijke vooruitgang laten zien in redeneren en algemene taakprestaties vergeleken met het originele TeleChat. Opmerkelijk is dat T1-115B propriëtaire modellen zoals OpenAI's o1-mini en GPT-4o overtreft. We geven TeleChat2, TeleChat2.5 en T1 vrij, inclusief post-getrainde versies met 35B en 115B parameters, om ontwikkelaars en onderzoekers te voorzien van state-of-the-art taalmodellen die zijn afgestemd op diverse toepassingen.

English

We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.

Technisch Rapport van TeleChat2, TeleChat2.5 en T1

Technical Report of TeleChat2, TeleChat2.5 and T1

Samenvatting

Support