Los modelos más pequeños son exploradores naturales para la diversidad a nivel de política en GRPO.

Resumen

Identificamos una nueva dimensión para mejorar la diversidad de los rollouts en la Optimización de Políticas Relativas a Grupo (GRPO, por sus siglas en inglés) para LLMs. Si bien GRPO depende de la diversidad de los rollouts, las estrategias predominantes aumentan dicha diversidad principalmente inyectando más aleatoriedad a nivel de tokens, lo que puede introducir ruido paso a paso y generar trayectorias incoherentes. Descubrimos que los modelos más pequeños dentro de una misma familia de modelos exhiben inherentemente una mayor diversidad a nivel de política, evidenciada por su mejor rendimiento pass@k en comparación con modelos más grandes a medida que aumenta el número de muestras. A diferencia del ruido a nivel de tokens, esta diversidad está correlacionada temporalmente, preserva la consistencia lógica y proporciona señales de exploración estructuradas para la estimación del gradiente. Por lo tanto, proponemos S2L-PO (Small-to-Large Policy Optimization), un marco que utiliza modelos pequeños fijos como exploradores naturales para entrenar modelos más grandes. Para equilibrar exploración y explotación, diseñamos una estrategia de recocido progresivo que transita desde rollouts offline del modelo pequeño hasta el muestreo propio del modelo grande. Este cambio evita elegantemente las caídas de rendimiento durante el entrenamiento provocadas por los límites de capacidad del modelo pequeño, logrando una convergencia más rápida y desbloqueando un techo de rendimiento más alto. S2L-PO mejora la precisión en diversos puntos de referencia de razonamiento matemático (por ejemplo, +8.8% en AIME 24 usando un explorador de 1.7B para guiar el modelo de 8B) a la vez que reduce el cómputo de los rollouts.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.