N-GRPO: Naburmenging op Embeddingsniveau voor Verbeterde Beleidsoptimalisatie

Samenvatting

Het succes van Large Language Models bij wiskundig redeneren hangt sterk af van het genereren van diverse en geldige oplossingspaden tijdens de rollout-fase. Huidige rollout-technieken kennen echter een fundamentele afweging: sampling op token-niveau levert vaak redundante trajecten op die alleen verschillen in herformulering, terwijl methoden op embedding-niveau die gebruikmaken van willekeurige ruis vaak de semantische consistentie verstoren. Om dit op te lossen introduceren we N-GRPO, een nieuwe exploratiestrategie die is geïntegreerd in het Group Relative Policy Optimization (GRPO)-raamwerk. In plaats van te vertrouwen op sampling op token-niveau of native ruis op embedding-niveau, maakt onze aanpak gebruik van Semantic Neighbor Mixing. Dit mechanisme construeert dynamisch invoerrepresentaties door de embeddings van een ankertoken en de dichtstbijzijnde semantische buren te mengen, waardoor diversiteit wordt geïnjecteerd terwijl strikt wordt vastgehouden aan de lokale semantische manifold. Experimentele evaluaties op de DeepSeek-R1-Distill-Qwen-modellen van verschillende groottes tonen aan dat N-GRPO niet alleen consistente verbeteringen behaalt ten opzichte van sterke baselines op benchmarks voor wiskundig redeneren, maar ook robuuste generalisatiecapaciteiten vertoont op taken buiten de distributie.

English

The success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-off: token-level sampling often yields redundant trajectories that differ only in rephrasing, while embedding-level methods utilizing random noise frequently disrupt semantic consistency. To resolve this, we introduce N-GRPO, a novel exploration strategy integrated into the Group Relative Policy Optimization (GRPO) framework. Rather than relying on token-level sampling or native embedding-level noise, our approach leverages Semantic Neighbor Mixing. This mechanism dynamically constructs input representations by mixing the embeddings of an anchor token and its nearest semantic neighbors, thereby injecting diversity while strictly adhering to the local semantic manifold. Experimental evaluations on the DeepSeek-R1-Distill-Qwen models across different sizes show that N-GRPO not only achieves consistent improvements over strong baselines on math reasoning benchmarks but also exhibits robust generalization capabilities on out-of-distribution tasks.