Nanbeige4.1-3B:推論、連携、行動する小型汎用モデル
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
February 13, 2026
著者: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI
要旨
我々はNanbeige4.1-3Bを発表する。これは、わずか30億パラメータで強力なエージェント行動、コード生成、一般的な推論を同時に実現する統一汎用言語モデルである。知る限り、単一モデルでこれほど多様な能力を達成したオープンソースの小型言語モデル(SLM)は初めてである。推論能力と選好整合性を向上させるため、ポイントワイズ報酬モデリングとペアワイズ報酬モデリングを組み合わせ、高品質で人間の意図に沿った応答を保証している。コード生成では、強化学習における複雑度対応報酬を設計し、正確性と効率性の両方を最適化した。深層探索では、複雑なデータ合成を実施し、訓練時にターンレベルの監督を組み込むことで、安定した長期的ツールインタラクションを実現。Nanbeige4.1-3Bは複雑な問題解決のために最大600ターンにわたるツール呼び出しを確実に実行できる。大規模な実験結果から、Nanbeige4.1-3BはNanbeige4-3B-2511やQwen3-4Bといった同規模の従来モデルを大きく上回り、Qwen3-30B-A3Bのようなはるかに大規模なモデルに対しても優れた性能を示すことが確認された。本結果は、小型モデルが広範な汎用性と強力な専門性を同時に達成可能であることを示し、30億パラメータモデルの可能性を再定義するものである。
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.