Nanbeige4.1-3B: Un piccolo modello generale che ragiona, si allinea e agisce

Abstract

Presentiamo Nanbeige4.1-3B, un modello linguistico generalista unificato che, con soli 3 miliardi di parametri, raggiunge simultaneamente un forte comportamento agentivo, capacità di generazione di codice e ragionamento generale. Per quanto a nostra conoscenza, è il primo piccolo modello linguistico (SLM) open-source a conseguire una tale versatilità in un unico modello. Per migliorare il ragionamento e l'allineamento alle preferenze, combiniamo la modellazione di ricompensa punto-punto e coppia-punto, garantendo risposte di alta qualità e allineate con l'umano. Per la generazione di codice, progettiamo ricompense basate sulla complessità nel Reinforcement Learning, ottimizzando sia la correttezza che l'efficienza. Nella ricerca approfondita, eseguiamo una sintesi di dati complessi e incorporiamo una supervisione a livello di turno durante l'addestramento. Ciò consente interazioni stabili e a lungo termine con strumenti, permettendo a Nanbeige4.1-3B di eseguire in modo affidabile fino a 600 turni di chiamate a strumenti per la risoluzione di problemi complessi. I risultati sperimentali estesi mostrano che Nanbeige4.1-3B supera significativamente i modelli precedenti di scala simile, come Nanbeige4-3B-2511 e Qwen3-4B, raggiungendo persino prestazioni superiori rispetto a modelli molto più grandi, come Qwen3-30B-A3B. I nostri risultati dimostrano che i modelli piccoli possono conseguire simultaneamente sia un'ampia competenza generale che una forte specializzazione, ridefinendo il potenziale dei modelli da 3 miliardi di parametri.

English

We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.

Nanbeige4.1-3B: Un piccolo modello generale che ragiona, si allinea e agisce

Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Abstract

Support