N-GRPO : Mélange de voisins au niveau des embeddings pour une optimisation de politique améliorée

Résumé

Le succès des grands modèles de langage dans le raisonnement mathématique repose fortement sur la génération de chemins de résolution diversifiés et valides durant la phase de rollout. Cependant, les techniques actuelles de rollout sont confrontées à un compromis fondamental : l'échantillonnage au niveau des jetons produit souvent des trajectoires redondantes qui ne diffèrent que par la reformulation, tandis que les méthodes au niveau des embeddings utilisant du bruit aléatoire perturbent fréquemment la cohérence sémantique. Pour résoudre ce problème, nous présentons N-GRPO, une nouvelle stratégie d'exploration intégrée dans le cadre de l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO). Plutôt que de recourir à un échantillonnage au niveau des jetons ou à un bruit natif au niveau des embeddings, notre approche exploite le mélange de voisins sémantiques (Semantic Neighbor Mixing). Ce mécanisme construit dynamiquement des représentations d'entrée en mélangeant les embeddings d'un jeton d'ancrage et de ses voisins sémantiques les plus proches, injectant ainsi de la diversité tout en respectant strictement la variété sémantique locale. Les évaluations expérimentales sur les modèles DeepSeek-R1-Distill-Qwen de différentes tailles montrent que N-GRPO non seulement obtient des améliorations constantes par rapport à des bases de référence solides sur des benchmarks de raisonnement mathématique, mais présente également des capacités de généralisation robustes sur des tâches hors distribution.

English

The success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-off: token-level sampling often yields redundant trajectories that differ only in rephrasing, while embedding-level methods utilizing random noise frequently disrupt semantic consistency. To resolve this, we introduce N-GRPO, a novel exploration strategy integrated into the Group Relative Policy Optimization (GRPO) framework. Rather than relying on token-level sampling or native embedding-level noise, our approach leverages Semantic Neighbor Mixing. This mechanism dynamically constructs input representations by mixing the embeddings of an anchor token and its nearest semantic neighbors, thereby injecting diversity while strictly adhering to the local semantic manifold. Experimental evaluations on the DeepSeek-R1-Distill-Qwen models across different sizes show that N-GRPO not only achieves consistent improvements over strong baselines on math reasoning benchmarks but also exhibits robust generalization capabilities on out-of-distribution tasks.