Les modèles plus petits sont des explorateurs naturels pour la diversité au niveau des politiques dans GRPO

Résumé

Nous identifions une nouvelle dimension pour améliorer la diversité des rollouts dans l'optimisation de politique relative de groupe (GRPO) pour les LLMs. Bien que GRPO repose sur des rollouts diversifiés, les stratégies dominantes augmentent principalement la diversité en injectant davantage d'aléa au niveau des tokens, ce qui peut introduire un bruit pas-à-pas et conduire à des trajectoires incohérentes. Nous découvrons que les modèles plus petits au sein d'une même famille de modèles présentent intrinsèquement une plus grande diversité au niveau de la politique, indiquée par leur pass@k supérieur à celui de leurs homologues plus grands lorsque le nombre d'échantillons augmente. Contrairement au bruit au niveau des tokens, cette diversité est temporellement corrélée, préserve la cohérence logique et fournit des signaux d'exploration structurés pour l'estimation du gradient. Nous proposons ainsi S2L-PO (Small-to-Large Policy Optimization), un cadre qui utilise des petits modèles fixes comme explorateurs naturels pour entraîner des modèles plus grands. Afin d'équilibrer exploration et exploitation, nous concevons une stratégie de recuit progressif qui passe des rollouts hors ligne du petit modèle à l'échantillonnage du grand apprenant lui-même. Ce passage évite élégamment les baisses de performance en milieu d'entraînement causées par les limites de capacité du petit modèle, permettant une convergence plus rapide et déverrouillant un plafond de performance plus élevé. S2L-PO améliore la précision sur divers benchmarks de raisonnement mathématique (par exemple, +8,8 % sur AIME 24 en utilisant un explorateur de 1,7B pour guider le modèle de 8B) tout en réduisant le calcul de rollout.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.