Xmodel-2.5: Modelo de Lenguaje Pequeño de 1.3B con Razonamiento Eficiente en Datos
Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
November 23, 2025
Autores: Yang Liu, Xiaolong Zhong, Ling Jiang
cs.AI
Resumen
Los modelos lingüísticos grandes ofrecen sólidas capacidades de razonamiento y uso de herramientas, pero sus demandas computacionales los hacen poco prácticos para implementaciones en el edge o sensibles a costos. Presentamos Xmodel-2.5, un modelo lingüístico pequeño de 1.300 millones de parámetros diseñado como núcleo de agente de reemplazo directo. El entrenamiento con parametrización de actualización máxima (μP) permite que los hiperparámetros ajustados en un proxy de 20M de parámetros se transfieran directamente al modelo completo, incluso bajo la arquitectura de incrustación de palabras vinculada con parámetros compartidos. Se utiliza un currículo de 1,4 billones de tokens de Calentamiento--Estabilidad--Decaimiento, y además demostramos que cambiar de AdamW a Muon durante la fase de decaimiento mejora el promedio de razonamiento en 13 tareas en un 4,58 %, manteniendo todos los demás hiperparámetros fijos, lo que verifica que la estabilidad temprana de AdamW puede combinarse con el afilado tardío de Muon para un mejor rendimiento downstream. El entrenamiento en precisión mixta FP8 equilibra precisión y rendimiento. Todos los puntos de control, recetas y código de evaluación se publican bajo la licencia Apache-2.0. https://huggingface.co/XiaoduoAILab/Xmodel-2.5 y https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (puntos de control de entrenamiento). Código de entrenamiento y entorno de evaluación: https://github.com/XiaoduoAILab/Xmodel-2.5.
English
Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present Xmodel-2.5, a 1.3-billion-parameter small language model designed as a drop-in agent core. Training with maximal-update parameterization (μP) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied tie-word-embedding architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that switching from AdamW to Muon during the decay phase improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints). Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.