ChatPaper.aiChatPaper

Xmodel-2.5: 1,3-миллиардная эффективная в использовании данных SLM для логического вывода

Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

November 23, 2025
Авторы: Yang Liu, Xiaolong Zhong, Ling Jiang
cs.AI

Аннотация

Крупные языковые модели демонстрируют мощные навыки логического вывода и использования инструментов, однако их вычислительные требования делают их непрактичными для развертывания на периферийных устройствах или в условиях с ограниченным бюджетом. Мы представляем Xmodel-2.5, небольшую языковую модель с 1,3 миллиарда параметров, разработанную в качестве готового ядра агента. Обучение с параметризацией максимального обновления (μP) позволяет напрямую переносить гиперпараметры, настроенные на прокси-модели с 20 миллионами параметров, на полную модель, даже в рамках архитектуры со связанными параметрами и привязанными word embedding. Используется учебный план Warmup–Stable–Decay на 1,4 триллиона токенов, и мы дополнительно показываем, что переход с AdamW на Muon на фазе Decay улучшает средний показатель логического вывода по 13 задачам на 4,58%, при сохранении всех остальных гиперпараметров неизменными. Это подтверждает, что ранняя стабильность AdamW может быть дополнена поздним "заострением" Muon для повышения итоговой производительности. Обучение со смешанной точностью FP8 обеспечивает баланс между точностью и пропускной способностью. Все контрольные точки, рецепты и код для оценки выпущены под лицензией Apache-2.0.
English
Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present Xmodel-2.5, a 1.3-billion-parameter small language model designed as a drop-in agent core. Training with maximal-update parameterization (μP) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied tie-word-embedding architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that switching from AdamW to Muon during the decay phase improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints). Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.
PDF12February 8, 2026