Xmodel-2.5: 1,3B dateneffizientes Reasoning SLM

Zusammenfassung

Große Sprachmodelle bieten leistungsstarke Fähigkeiten im Bereich des logischen Schließens und Werkzeugeinsatzes, doch ihr hoher Rechenaufwand macht sie für den Einsatz an der Edge oder in kostensensitiven Umgebungen unpraktisch. Wir stellen Xmodel-2.5 vor, ein kleines Sprachmodell mit 1,3 Milliarden Parametern, das als universelle Agenten-Kernkomponente konzipiert ist. Das Training mit maximaler Update-Parametrisierung (μP) ermöglicht es, Hyperparameter, die an einem 20-Millionen-Parameter-Proxy-Modell optimiert wurden, direkt auf das vollständige Modell zu übertragen, selbst unter der Architektur mit gebundenen Parametern (tied word embeddings). Es wird ein Curriculum mit 1,4 Billionen Tokens nach dem Warmup--Stable--Decay-Prinzip verwendet. Darüber hinaus zeigen wir, dass ein Wechsel von AdamW zu Muon während der Decay-Phase den Durchschnittswert beim logischen Schließen über 13 Aufgaben um 4,58 % verbessert, während alle anderen Hyperparameter unverändert bleiben. Dies bestätigt, dass die frühe Stabilität von AdamW mit der späten Schärfung durch Muon kombiniert werden kann, um eine bessere Downstream-Leistung zu erzielen. Das Training mit FP8-Gemischter-Präzision (mixed-precision) sorgt für eine Balance zwischen Genauigkeit und Durchsatz. Alle Checkpoints, Trainingsrezepte und Evaluierungscodes werden unter der Apache-2.0-Lizenz veröffentlicht. https://huggingface.co/XiaoduoAILab/Xmodel-2.5 und https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (Trainings-Checkpoints). Trainingscode und Evaluierungsframework: https://github.com/XiaoduoAILab/Xmodel-2.5.

English

Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present Xmodel-2.5, a 1.3-billion-parameter small language model designed as a drop-in agent core. Training with maximal-update parameterization (μP) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied tie-word-embedding architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that switching from AdamW to Muon during the decay phase improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints). Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.

Xmodel-2.5: 1,3B dateneffizientes Reasoning SLM

Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

Zusammenfassung

Support