Rapport technique Xmodel-2
Xmodel-2 Technical Report
December 27, 2024
Auteurs: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI
Résumé
Le modèle Xmodel-2 est un modèle de langage de grande taille de 1,2 milliard de paramètres conçu spécifiquement pour les tâches de raisonnement. Son architecture permet à différentes échelles de modèles de partager un ensemble unifié d'hyperparamètres, permettant une expérimentation approfondie sur des modèles plus petits et un transfert transparent des configurations optimales vers des modèles plus grands. Pour maximiser l'efficacité et la stabilité de l'entraînement, Xmodel-2 utilise le planificateur de taux d'apprentissage WSD de MiniCPM. Pré-entraîné sur 1,5 billion de jetons provenant de sources diverses, Xmodel-2 atteint des performances de pointe dans des tâches de raisonnement complexe et basées sur des agents, tout en maintenant des coûts d'entraînement bas. Ces résultats mettent en lumière le potentiel de la conception de modèles efficaces et des stratégies d'entraînement pour faire progresser les capacités de raisonnement. Les points de contrôle du modèle et le code sont disponibles publiquement sur GitHub à l'adresse https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed
specifically for reasoning tasks. Its architecture enables different model
scales to share a unified set of hyperparameters, allowing for extensive
experimentation on smaller models and seamless transfer of optimal
configurations to larger models. To maximize training efficiency and stability,
Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on
1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art
performance in complex reasoning and agent-based tasks, while maintaining low
training costs. These results highlight the potential of efficient model design
and training strategies in advancing reasoning capabilities. Model checkpoints
and code are publicly available on GitHub at
https://github.com/XiaoduoAILab/Xmodel-2Summary
AI-Generated Summary