Más allá de GRPO y la Destilación On-Policy: Un principio empírico de recompensa de dispersa a densa para el post-entrenamiento de modelos de lenguaje

Resumen

En entornos donde los datos de entrenamiento verificables etiquetados son la restricción limitante, cada ejemplo verificado debe asignarse cuidadosamente. La práctica estándar es utilizar estos datos directamente en el modelo que se implementará, por ejemplo, ejecutando GRPO en el estudiante de implementación. Sostenemos que esta suele ser una asignación ineficiente porque ignora un principio de densidad de recompensa: la recompensa dispersa a nivel de secuencia debe entrenar modelos donde la exploración sea productiva, mientras que la recompensa densa a nivel de token del maestro debe usarse cuando el objetivo sea comprimir el comportamiento en un modelo más pequeño. En esta visión, el RL disperso estilo GRPO y la supervisión densa del maestro estilo OPD no son recetas separadas; son regímenes diferentes de densidad de recompensa. La regla de asignación es simple: utilizar los escasos datos de entrenamiento etiquetados aguas arriba en el modelo más fuerte que pueda convertirlos en comportamiento moldeado por recompensa, y luego transferir ese comportamiento aguas abajo como supervisión densa. Evaluamos esta regla en matemáticas verificables con modelos Qwen3 y Llama. Con un tamaño fijo de estudiante de implementación Qwen3-1.7B, un maestro de 8B mejorado con RL destilado a través del puente denso supera al GRPO directo sobre el mismo estudiante, mientras que la transferencia desde el mismo maestro antes del RL tiene un rendimiento inferior. El puente es importante: un calentamiento forward-KL en las trayectorias del maestro seguido de OPD en las trayectorias del estudiante es consistentemente el más fuerte en MATH antes de cualquier RL disperso posterior al puente en el lado del estudiante, y también proporciona los mejores puntos finales de AIME pre-Etapa~3 para los maestros canónicos de 8B/14B. El puente también hace que el RL disperso posterior en el estudiante sea efectivo: el GRPO que es débil en un estudiante frío eleva MATH del 75.4% al 78.5% después del puente y supera a un control de repetición equivalente por 2.8 puntos. El principio operativo es evitar usar datos etiquetados escasos en la política menos preparada: usar recompensa dispersa para el descubrimiento en el lado del maestro, transferencia densa para la compresión del estudiante, y recompensa dispersa en el lado del estudiante solo después del puente.

English

In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge and outperforms a matched replay control by 2.8 points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.

Más allá de GRPO y la Destilación On-Policy: Un principio empírico de recompensa de dispersa a densa para el post-entrenamiento de modelos de lenguaje

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Resumen

Support