ChatPaper.aiChatPaper

Nanbeige4.1-3B : Un petit modèle général qui raisonne, s'aligne et agit

Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

February 13, 2026
papers.authors: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI

papers.abstract

Nous présentons Nanbeige4.1-3B, un modèle linguistique généraliste unifié qui réalise simultanément un comportement agentiel robuste, une génération de code et un raisonnement général avec seulement 3 milliards de paramètres. À notre connaissance, il s'agit du premier petit modèle linguistique (SLM) open-source à atteindre une telle polyvalence dans un modèle unique. Pour améliorer le raisonnement et l'alignement des préférences, nous combinons la modélisation de récompense ponctuelle et par paires, garantissant des réponses de haute qualité alignées sur les attentes humaines. Pour la génération de code, nous concevons des récompenses sensibles à la complexité dans l'apprentissage par renforcement, optimisant à la fois la justesse et l'efficacité. Pour la recherche approfondie, nous réalisons une synthèse de données complexe et intégrons une supervision tour par tour pendant l'entraînement. Cela permet des interactions stables à long horizon avec des outils, permettant à Nanbeige4.1-3B d'exécuter de manière fiable jusqu'à 600 tours d'appels d'outils pour la résolution de problèmes complexes. Des résultats expérimentaux approfondis montrent que Nanbeige4.1-3B surpasse significativement les modèles antérieurs de taille similaire, tels que Nanbeige4-3B-2511 et Qwen3-4B, atteignant même des performances supérieures à des modèles bien plus grands, comme Qwen3-30B-A3B. Nos résultats démontrent que les petits modèles peuvent simultanément atteindre une large compétence et une spécialisation robuste, redéfinissant le potentiel des modèles à 3 milliards de paramètres.
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.
PDF172February 18, 2026