Xmodel-2.5 : Petit modèle linguistique de raisonnement efficace en données de 1,3 milliard de paramètres

Résumé

Les grands modèles de langage offrent d’excellentes capacités de raisonnement et d’utilisation d’outils, mais leurs exigences computationnelles les rendent peu pratiques pour des déploiements en périphérie ou sensibles aux coûts. Nous présentons Xmodel-2.5, un petit modèle de langage de 1,3 milliard de paramètres conçu comme noyau d’agent prêt à l’emploi. L’entraînement avec une paramétrisation à mise à jour maximale (μP) permet de transférer directement les hyperparamètres réglés sur un proxy de 20 millions de paramètres au modèle complet, même sous l’architecture à liaison des paramètres et intégration des plongements lexicaux. Un curriculum d’entraînement Warmup–Stable–Decay sur 1,4 billion de jetons est utilisé, et nous montrons en outre que le passage d’AdamW à Muon durant la phase de décroissance améliore la moyenne de raisonnement sur 13 tâches de 4,58 % tout en maintenant inchangés tous les autres hyperparamètres, confirmant ainsi que la stabilité précoce d’AdamW peut être associée à l’affinage tardif de Muon pour de meilleures performances en aval. L’entraînement en précision mixte FP8 équilibre précision et débit. Tous les points de contrôle, recettes et codes d’évaluation sont publiés sous licence Apache-2.0. https://huggingface.co/XiaoduoAILab/Xmodel-2.5 et https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (points de contrôle d’entraînement). Code d’entraînement et infrastructure d’évaluation : https://github.com/XiaoduoAILab/Xmodel-2.5.

English

Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present Xmodel-2.5, a 1.3-billion-parameter small language model designed as a drop-in agent core. Training with maximal-update parameterization (μP) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied tie-word-embedding architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that switching from AdamW to Muon during the decay phase improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints). Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.

Xmodel-2.5 : Petit modèle linguistique de raisonnement efficace en données de 1,3 milliard de paramètres

Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

Résumé

Support