Nanbeige4.1-3B: 추론, 조정 및 행동이 가능한 소형 범용 모델
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
February 13, 2026
저자: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI
초록
본 논문에서는 단 30억 개의 매개변수만으로도 강력한 에이전트 행동, 코드 생성, 일반 추론 능력을 동시에 달성하는 통합 범용 언어 모델 Nanbeige4.1-3B를 소개한다. 우리가 아는 한, 이는 단일 모델이 이러한 다기능성을 달성한 최초의 오픈소스 소형 언어 모델(SLM)이다. 추론 능력과 인간 선호도 정렬을 향상시키기 위해 점별 및 쌍별 보상 모델링을 결합하여 고품질의 인간 정렬 응답을 보장한다. 코드 생성 분야에서는 강화 학습에 복잡도 인식 보상 방식을 도입하여 정확성과 효율성을 동시에 최적화하였다. 심층 탐색에서는 복잡한 데이터 합성을 수행하고 훈련 과정에서 턴 단위 감독을 통합하여 장기간 도구 상호작용의 안정성을 확보했다. 이를 통해 Nanbeige4.1-3B는 복잡한 문제 해결을 위해 최대 600회의 도구 호출 턴을 안정적으로 실행할 수 있다. 폭넓은 실험 결과, Nanbeige4.1-3B는 Nanbeige4-3B-2511 및 Qwen3-4B와 같은 동일 규모의 기존 모델을 크게 능가하며, Qwen3-30B-A3B와 같은 훨씬 큰 모델 대비 우수한 성능까지 달성함을 보여준다. 본 연구 결과는 소형 모델이 광범위한 일반 능력과 강력한 전문성을 동시에 확보함으로써 30억 매개변수 모델의 가능성을 재정의할 수 있음을 입증한다.
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.