Xmodel-2.5: SLM Efficiente nei Dati da 1.3B per il Ragionamento

Abstract

I modelli linguistici di grandi dimensioni offrono solide capacità di ragionamento e utilizzo di strumenti, ma le loro esigenze computazionali li rendono poco pratici per implementazioni su dispositivi edge o in contesti con vincoli di costo. Presentiamo Xmodel-2.5, un piccolo modello linguistico da 1,3 miliardi di parametri progettato come nucleo agente di facile integrazione. L'addestramento con la parametrizzazione ad aggiornamento massimo (μP) consente il trasferimento diretto degli iperparametri ottimizzati su un proxy da 20 milioni di parametri al modello completo, anche nell'architettura con incorporamento lessicale vincolato. Viene utilizzato un curriculum di addestramento Warmup–Stabile–Decay su 1,4T di token e dimostriamo inoltre che il passaggio da AdamW a Muon durante la fase di decadimento migliora la media del ragionamento su 13 task del 4,58%, mantenendo invariati tutti gli altri iperparametri, verificando così che la stabilità iniziale di AdamW può essere abbinata all'affinamento finale di Muon per prestazioni downstream migliori. L'addestramento in precisione mista FP8 bilancia accuratezza e velocità di elaborazione. Tutti i checkpoint, le ricette e il codice di valutazione sono rilasciati sotto licenza Apache-2.0. https://huggingface.co/XiaoduoAILab/Xmodel-2.5 e https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (checkpoint di addestramento). Codice di addestramento e framework di valutazione: https://github.com/XiaoduoAILab/Xmodel-2.5.

English

Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present Xmodel-2.5, a 1.3-billion-parameter small language model designed as a drop-in agent core. Training with maximal-update parameterization (μP) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied tie-word-embedding architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that switching from AdamW to Muon during the decay phase improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints). Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.

Xmodel-2.5: SLM Efficiente nei Dati da 1.3B per il Ragionamento

Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

Abstract

Support