Relatório Técnico do TeleChat2, TeleChat2.5 e T1

Resumo

Apresentamos a mais recente série de modelos TeleChat: TeleChat2, TeleChat2.5 e T1, que oferecem uma melhoria significativa em relação ao seu antecessor, o TeleChat. Apesar de mudanças mínimas na arquitetura do modelo, a nova série alcança ganhos substanciais de desempenho por meio de estratégias de treinamento aprimoradas, tanto na fase de pré-treinamento quanto na pós-treinamento. A série começa com o TeleChat2, que passa por um pré-treinamento com 10 trilhões de tokens de alta qualidade e diversificados. Isso é seguido por Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferência (DPO) para aprimorar ainda mais suas capacidades. O TeleChat2.5 e o T1 expandem o pipeline ao incorporar uma fase de pré-treinamento contínuo com conjuntos de dados específicos de domínio, combinados com aprendizado por reforço (RL) para melhorar o desempenho em tarefas de geração de código e raciocínio matemático. A variante T1 é projetada para raciocínio complexo, suportando longas cadeias de raciocínio (Chain-of-Thought, CoT) e demonstrando melhorias substanciais em matemática e codificação. Em contraste, o TeleChat2.5 prioriza a velocidade, oferecendo inferência rápida. Ambos os modelos principais, T1 e TeleChat2.5, são arquiteturas densas baseadas em Transformers com 115 bilhões de parâmetros, mostrando avanços significativos em raciocínio e desempenho geral de tarefas em comparação com o TeleChat original. Notavelmente, o T1-115B supera modelos proprietários como o o1-mini da OpenAI e o GPT-4o. Disponibilizamos publicamente o TeleChat2, TeleChat2.5 e T1, incluindo versões pós-treinadas com 35 bilhões e 115 bilhões de parâmetros, para capacitar desenvolvedores e pesquisadores com modelos de linguagem de ponta adaptados para diversas aplicações.

English

We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.

Relatório Técnico do TeleChat2, TeleChat2.5 e T1

Technical Report of TeleChat2, TeleChat2.5 and T1

Resumo

Support