ChatPaper.aiChatPaper

Технический отчет по модели X-2

Xmodel-2 Technical Report

December 27, 2024
Авторы: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI

Аннотация

Модель Xmodel-2 - это языковая модель большого размера с 1,2 миллиарда параметров, специально разработанная для задач рассуждений. Ее архитектура позволяет различным масштабам моделей использовать единый набор гиперпараметров, что позволяет проводить обширные эксперименты на более маленьких моделях и легко передавать оптимальные конфигурации на более крупные модели. Для максимизации эффективности обучения и стабильности Xmodel-2 использует планировщик скорости обучения WSD из MiniCPM. Обученная на 1,5 триллионах токенов из различных источников, Xmodel-2 достигает передовой производительности в сложных задачах рассуждений и задачах на основе агентов, сохраняя при этом низкие затраты на обучение. Эти результаты подчеркивают потенциал эффективного проектирования модели и стратегий обучения в развитии возможностей рассуждений. Чекпоинты модели и код доступны публично на GitHub по адресу https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed specifically for reasoning tasks. Its architecture enables different model scales to share a unified set of hyperparameters, allowing for extensive experimentation on smaller models and seamless transfer of optimal configurations to larger models. To maximize training efficiency and stability, Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on 1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art performance in complex reasoning and agent-based tasks, while maintaining low training costs. These results highlight the potential of efficient model design and training strategies in advancing reasoning capabilities. Model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/Xmodel-2

Summary

AI-Generated Summary

PDF274January 2, 2025