Informe Técnico Xmodel-2
Xmodel-2 Technical Report
December 27, 2024
Autores: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling
cs.AI
Resumen
Xmodel-2 es un modelo de lenguaje grande con 1.2 mil millones de parámetros diseñado específicamente para tareas de razonamiento. Su arquitectura permite que diferentes escalas de modelos compartan un conjunto unificado de hiperparámetros, lo que permite una experimentación extensiva en modelos más pequeños y una transferencia fluida de configuraciones óptimas a modelos más grandes. Para maximizar la eficiencia y estabilidad del entrenamiento, Xmodel-2 emplea el programador de tasas de aprendizaje WSD de MiniCPM. Pre-entrenado en 1.5 billones de tokens de diversas fuentes, Xmodel-2 logra un rendimiento de vanguardia en tareas de razonamiento complejo y basadas en agentes, manteniendo bajos costos de entrenamiento. Estos resultados resaltan el potencial del diseño eficiente de modelos y estrategias de entrenamiento en el avance de las capacidades de razonamiento. Los puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/XiaoduoAILab/Xmodel-2
English
Xmodel-2 is a 1.2-billion-parameter large language model designed
specifically for reasoning tasks. Its architecture enables different model
scales to share a unified set of hyperparameters, allowing for extensive
experimentation on smaller models and seamless transfer of optimal
configurations to larger models. To maximize training efficiency and stability,
Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on
1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art
performance in complex reasoning and agent-based tasks, while maintaining low
training costs. These results highlight the potential of efficient model design
and training strategies in advancing reasoning capabilities. Model checkpoints
and code are publicly available on GitHub at
https://github.com/XiaoduoAILab/Xmodel-2Summary
AI-Generated Summary