Nanbeige4.1-3B: Um Pequeno Modelo Geral que Raciocina, Alinha e Age

Resumo

Apresentamos o Nanbeige4.1-3B, um modelo de linguagem generalista unificado que alcança simultaneamente um forte comportamento agentivo, geração de código e raciocínio geral com apenas 3 bilhões de parâmetros. Até onde sabemos, é o primeiro modelo de linguagem pequeno (SLM) de código aberto a alcançar tal versatilidade em um único modelo. Para melhorar o alinhamento de preferências e o raciocínio, combinamos a modelagem de recompensa pontual e pareada, garantindo respostas de alta qualidade e alinhadas com valores humanos. Para a geração de código, projetamos recompensas com sensibilidade à complexidade no Aprendizado por Reforço, otimizando tanto a correção quanto a eficiência. Em buscas profundas, realizamos uma síntese complexa de dados e incorporamos supervisão no nível do turno durante o treinamento. Isso permite interações estáveis e de longo horizonte com ferramentas, permitindo que o Nanbeige4.1-3B execute de forma confiável até 600 turnos de chamadas de ferramentas para resolução de problemas complexos. Resultados experimentais extensivos mostram que o Nanbeige4.1-3B supera significativamente modelos anteriores de escala similar, como o Nanbeige4-3B-2511 e o Qwen3-4B, chegando a alcançar desempenho superior até mesmo em comparação com modelos muito maiores, como o Qwen3-30B-A3B. Nossos resultados demonstram que modelos pequenos podem alcançar simultaneamente ampla competência e forte especialização, redefinindo o potencial dos modelos com 3 bilhões de parâmetros.

English

We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.

Nanbeige4.1-3B: Um Pequeno Modelo Geral que Raciocina, Alinha e Age

Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Resumo

Support