Au-delà de GRPO et de la distillation on-policy : un principe empirique de récompense clairsemé-dense pour le post-entraînement des modèles de langage

Résumé

Dans les contextes où les données d’entraînement vérifiables étiquetées constituent la contrainte limitante, chaque exemple vérifié doit être alloué avec soin. La pratique standard consiste à utiliser ces données directement sur le modèle qui sera déployé, par exemple en appliquant GRPO sur l’étudiant déployé. Nous soutenons qu’il s’agit souvent d’une allocation inefficace car elle néglige un principe de densité de récompense : une récompense sparse au niveau des séquences devrait entraîner des modèles pour lesquels l’exploration est productive, tandis qu’une récompense dense au niveau des tokens d’un enseignant devrait être utilisée lorsque l’objectif est de comprimer un comportement dans un modèle plus petit. Selon cette perspective, le RL sparse de type GRPO et la supervision dense d’un enseignant de type OPD ne sont pas des recettes séparées ; ils constituent différents régimes de densité de récompense. La règle d’allocation est simple : utiliser les données étiquetées rares en amont sur le modèle le plus performant capable de les transformer en comportement façonné par la récompense, puis transférer ce comportement en aval sous forme de supervision dense. Nous évaluons cette règle sur des mathématiques vérifiables avec les modèles Qwen3 et Llama. Pour une taille fixe de l’étudiant déployé Qwen3-1,7B, un enseignant de 8B amélioré par RL et distillé via le pont dense surpasse l’application directe de GRPO au même étudiant, tandis que le transfert depuis le même enseignant avant le RL est moins performant. Le pont est important : un échauffement forward-KL sur les rouleaux de l’enseignant suivi d’OPD sur les rouleaux de l’étudiant donne systématiquement les meilleurs résultats sur MATH avant tout RL sparse post-pont côté étudiant, et fournit également les meilleurs points de terminaison AIME pré-étape~3 pour les enseignants canoniques 8B/14B. Le pont rend également efficace le RL sparse ultérieur côté étudiant : GRPO, qui est faible sur un étudiant non préparé, passe de 75,4 % à 78,5 % sur MATH après le pont et surpasse un contrôle par rejeu apparié de 2,8 points. Le principe opérationnel est d’éviter d’utiliser des données étiquetées rares sur la politique la moins préparée : utiliser la récompense sparse pour la découverte côté enseignant, le transfert dense pour la compression côté étudiant, et la récompense sparse côté étudiant seulement après le pont.

English

In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge and outperforms a matched replay control by 2.8 points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.

Au-delà de GRPO et de la distillation on-policy : un principe empirique de récompense clairsemé-dense pour le post-entraînement des modèles de langage

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Résumé

Support