Kleinere modellen zijn natuurlijke verkenners voor diversiteit op beleidsniveau in GRPO.

Samenvatting

We identificeren een nieuwe dimensie voor het verbeteren van rollout-diversiteit in Group Relative Policy Optimization (GRPO) voor LLM's. Hoewel GRPO afhankelijk is van diverse rollouts, vergroten gangbare strategieën diversiteit voornamelijk door meer token-niveau willekeur te injecteren, wat stapsgewijze ruis kan introduceren en tot onsamenhangende trajecten kan leiden. We ontdekken dat kleinere modellen binnen dezelfde modelfamilie inherent een hogere beleidsniveau diversiteit vertonen, aangegeven door hun superieure pass@k ten opzichte van grotere tegenhangers naarmate het aantal samples toeneemt. In tegenstelling tot token-niveau ruis is deze diversiteit temporeel gecorreleerd, behoudt ze logische consistentie en biedt ze gestructureerde exploratiesignalen voor gradiëntschatting. We stellen daarom S2L-PO (Small-to-Large Policy Optimization) voor, een raamwerk dat vaste kleine modellen als natuurlijke explorers gebruikt om grotere modellen te trainen. Om exploratie en exploitatie in balans te brengen, ontwerpen we een progressieve uitgloeistrategie die overgaat van offline kleine-model rollouts naar de eigen sampling van de grote lerende. Deze verschuiving vermijdt elegant prestatieverliezen tijdens de training veroorzaakt door de capaciteitsbeperkingen van het kleine model, wat leidt tot snellere convergentie en een hogere prestatiedrempel. S2L-PO verbetert de nauwkeurigheid op diverse wiskundige redeneerbenchmarks (bijv. +8,8% op AIME 24 met een 1,7B explorer om het 8B-model te begeleiden) terwijl de rollout-berekening wordt verminderd.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.