Nanbeige4.1-3B: Малая универсальная модель, способная к рассуждениям, согласованию и действиям
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
February 13, 2026
Авторы: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI
Аннотация
Мы представляем Nanbeige4.1-3B — унифицированную общую языковую модель, которая одновременно демонстрирует мощное агентское поведение, генерацию кода и способность к общим рассуждениям, имея всего 3 миллиарда параметров. Насколько нам известно, это первая модель малого размера с открытым исходным кодом, достигшая такой универсальности в рамках единой архитектуры. Для улучшения логических способностей и согласования с предпочтениями мы объединили точечное и парное моделирование вознаграждения, что обеспечивает генерацию качественных ответов, соответствующих человеческим ожиданиям. В части генерации кода мы разработали систему вознаграждений, учитывающую сложность, для обучения с подкреплением, что позволяет оптимизировать как корректность, так и эффективность кода. Для реализации глубокого поиска мы провели сложный синтез данных и внедрили пошаговый контроль в процессе обучения. Это обеспечивает стабильное взаимодействие с инструментами на длинных горизонтах, позволяя Nanbeige4.1-3B надежно выполнять до 600 шагов вызовов инструментов для решения сложных задач. Результаты масштабных экспериментов показывают, что Nanbeige4.1-3B существенно превосходит предыдущие модели сопоставимого масштаба, такие как Nanbeige4-3B-2511 и Qwen3-4B, и даже демонстрирует превосходство над гораздо более крупными моделями, например, Qwen3-30B-A3B. Наши результаты доказывают, что малые модели способны одновременно достигать как широкой компетентности, так и сильной специализации, переопределяя потенциал моделей с 3 миллиардами параметров.
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.