Технический отчет по TeleChat2, TeleChat2.5 и T1

Аннотация

Мы представляем новую серию моделей TeleChat: TeleChat2, TeleChat2.5 и T1, которые предлагают значительное улучшение по сравнению с их предшественником, TeleChat. Несмотря на минимальные изменения в архитектуре модели, новая серия достигает существенного повышения производительности благодаря улучшенным стратегиям обучения на этапах предварительной и пост-обработки. Серия начинается с TeleChat2, который проходит предварительное обучение на 10 триллионах высококачественных и разнообразных токенов. Затем следует контролируемая тонкая настройка (SFT) и оптимизация прямых предпочтений (DPO) для дальнейшего улучшения его возможностей. TeleChat2.5 и T1 расширяют процесс, включая этап непрерывного предварительного обучения на специализированных наборах данных, сочетая его с обучением с подкреплением (RL) для повышения производительности в задачах генерации кода и математического рассуждения. Вариант T1 разработан для сложного рассуждения, поддерживая длинные цепочки рассуждений (CoT) и демонстрируя значительные улучшения в математике и программировании. В то же время TeleChat2.5 ориентирован на скорость, обеспечивая быстрое выполнение выводов. Обе флагманские модели T1 и TeleChat2.5 представляют собой плотные архитектуры на основе Transformer с 115 миллиардами параметров, демонстрируя значительные достижения в рассуждениях и общей производительности задач по сравнению с оригинальным TeleChat. Примечательно, что T1-115B превосходит проприетарные модели, такие как o1-mini от OpenAI и GPT-4o. Мы публично выпускаем TeleChat2, TeleChat2.5 и T1, включая пост-обученные версии с 35 миллиардами и 115 миллиардами параметров, чтобы предоставить разработчикам и исследователям передовые языковые модели, адаптированные для различных приложений.

English

We introduce the latest series of TeleChat models: TeleChat2, TeleChat2.5, and T1, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with TeleChat2, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. TeleChat2.5 and T1 expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The T1 variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, TeleChat2.5 prioritizes speed, delivering rapid inference. Both flagship models of T1 and TeleChat2.5 are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, T1-115B outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release TeleChat2, TeleChat2.5 and T1, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.

Технический отчет по TeleChat2, TeleChat2.5 и T1

Technical Report of TeleChat2, TeleChat2.5 and T1

Аннотация

Support