Nanbeige4.1-3B: Ein kleines generelles Modell, das schlussfolgert, ausrichtet und handelt
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts
February 13, 2026
papers.authors: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen
cs.AI
papers.abstract
Wir stellen Nanbeige4.1-3B vor, ein vereinheitlichtes, generalistisches Sprachmodell, das mit nur 3 Milliarden Parametern gleichzeitig starkes agentisches Verhalten, Code-Generierung und allgemeine Reasoning-Fähigkeiten erreicht. Nach unserem Wissen ist es das erste quelloffene Small Language Model (SLM), das eine solche Vielseitigkeit in einem einzigen Modell erreicht. Um das Reasoning und die Präferenzausrichtung zu verbessern, kombinieren wir punktuelle und paarweise Belohnungsmodellierung, um hochwertige, menschenähnliche Antworten zu gewährleisten. Für die Code-Generierung haben wir komplexitätsabhängige Belohnungen im Reinforcement Learning entworfen, die sowohl Korrektheit als auch Effizienz optimieren. Bei der Tiefensuche führen wir eine komplexe Datensynthese durch und integrieren turn-basierte Überwachung während des Trainings. Dies ermöglicht stabile Tool-Interaktionen über lange Horizonte, sodass Nanbeige4.1-3B zuverlässig bis zu 600 Tool-Aufrufe für komplexe Problemlösungen ausführen kann. Umfangreiche experimentelle Ergebnisse zeigen, dass Nanbeige4.1-3B frühere Modelle ähnlicher Größe, wie Nanbeige4-3B-2511 und Qwen3-4B, deutlich übertrifft und sogar eine überlegene Leistung im Vergleich zu viel größeren Modellen wie Qwen3-30B-A3B erzielt. Unsere Ergebnisse demonstrieren, dass kleine Modelle gleichzeitig breite Kompetenz und starke Spezialisierung erreichen können und damit das Potenzial von 3-Milliarden-Parameter-Modellen neu definieren.
English
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.