Nanbeige4.1-3B: Een klein algemeen model dat redeneert, afstemt en handelt

Samenvatting

Wij presenteren Nanbeige4.1-3B, een verenigd generalistisch taalmodel dat met slechts 3B parameters tegelijkertijd sterk agentgedrag, codegeneratie en algemeen redeneervermogen bereikt. Voor zover wij weten is dit het eerste open-source kleine taalmodel (SLM) dat een dergelijke veelzijdigheid in één enkel model bereikt. Om het redeneervermogen en voorkeursafstemming te verbeteren, combineren we point-wise en pair-wise beloningsmodellering, wat hoogwaardige, op mensen afgestemde antwoorden garandeert. Voor codegeneratie ontwerpen we complexiteitsbewuste beloningen in Reinforcement Learning, waarbij zowel correctheid als efficiëntie worden geoptimaliseerd. Bij diepgaand onderzoek voeren we complexe datasynthese uit en integreren we toezicht op turn-niveau tijdens de training. Dit maakt stabiele toolinteracties op lange termijn mogelijk, waardoor Nanbeige4.1-3B betrouwbaar tot 600 tool-aanroepbeurten kan uitvoeren voor complexe probleemoplossing. Uitgebreide experimentele resultaten tonen aan dat Nanbeige4.1-3B aanzienlijk beter presteert dan eerdere modellen van vergelijkbare omvang, zoals Nanbeige4-3B-2511 en Qwen3-4B, en zelfs superieure prestaties bereikt in vergelijking met veel grotere modellen, zoals Qwen3-30B-A3B. Onze resultaten tonen aan dat kleine modellen tegelijkertijd zowel brede competentie als sterke specialisatie kunnen bereiken, wat het potentieel van 3B-parametermodellen herdefinieert.

English

We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.

Nanbeige4.1-3B: Een klein algemeen model dat redeneert, afstemt en handelt

Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Samenvatting

Support