ChatPaper.aiChatPaper

Rapport technique Xmodel-2

Xmodel-2 Technical Report

December 27, 2024
Auteurs: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI

Résumé

Le modèle Xmodel-2 est un modèle de langage de grande taille de 1,2 milliard de paramètres conçu spécifiquement pour les tâches de raisonnement. Son architecture permet à différentes échelles de modèles de partager un ensemble unifié d'hyperparamètres, permettant une expérimentation approfondie sur des modèles plus petits et un transfert transparent des configurations optimales vers des modèles plus grands. Pour maximiser l'efficacité et la stabilité de l'entraînement, Xmodel-2 utilise le planificateur de taux d'apprentissage WSD de MiniCPM. Pré-entraîné sur 1,5 billion de jetons provenant de sources diverses, Xmodel-2 atteint des performances de pointe dans des tâches de raisonnement complexe et basées sur des agents, tout en maintenant des coûts d'entraînement bas. Ces résultats mettent en lumière le potentiel de la conception de modèles efficaces et des stratégies d'entraînement pour faire progresser les capacités de raisonnement. Les points de contrôle du modèle et le code sont disponibles publiquement sur GitHub à l'adresse https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed specifically for reasoning tasks. Its architecture enables different model scales to share a unified set of hyperparameters, allowing for extensive experimentation on smaller models and seamless transfer of optimal configurations to larger models. To maximize training efficiency and stability, Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on 1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art performance in complex reasoning and agent-based tasks, while maintaining low training costs. These results highlight the potential of efficient model design and training strategies in advancing reasoning capabilities. Model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/Xmodel-2

Summary

AI-Generated Summary

PDF274January 2, 2025