Nanbeige4.1-3B: Um Pequeno Modelo Geral que Raciocina, Alinha e Age
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
February 13, 2026
Autores: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI
Resumo
Apresentamos o Nanbeige4.1-3B, um modelo de linguagem generalista unificado que alcança simultaneamente um forte comportamento agentivo, geração de código e raciocínio geral com apenas 3 bilhões de parâmetros. Até onde sabemos, é o primeiro modelo de linguagem pequeno (SLM) de código aberto a alcançar tal versatilidade em um único modelo. Para melhorar o alinhamento de preferências e o raciocínio, combinamos a modelagem de recompensa pontual e pareada, garantindo respostas de alta qualidade e alinhadas com valores humanos. Para a geração de código, projetamos recompensas com sensibilidade à complexidade no Aprendizado por Reforço, otimizando tanto a correção quanto a eficiência. Em buscas profundas, realizamos uma síntese complexa de dados e incorporamos supervisão no nível do turno durante o treinamento. Isso permite interações estáveis e de longo horizonte com ferramentas, permitindo que o Nanbeige4.1-3B execute de forma confiável até 600 turnos de chamadas de ferramentas para resolução de problemas complexos. Resultados experimentais extensivos mostram que o Nanbeige4.1-3B supera significativamente modelos anteriores de escala similar, como o Nanbeige4-3B-2511 e o Qwen3-4B, chegando a alcançar desempenho superior até mesmo em comparação com modelos muito maiores, como o Qwen3-30B-A3B. Nossos resultados demonstram que modelos pequenos podem alcançar simultaneamente ampla competência e forte especialização, redefinindo o potencial dos modelos com 3 bilhões de parâmetros.
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.