Modelos Menores são Exploradores Naturais para Diversidade em Nível de Política no GRPO

Resumo

Identificamos uma nova dimensão para aumentar a diversidade de rollouts na Otimização de Política Relativa a Grupo (GRPO) para LLMs. Embora a GRPO dependa de rollouts diversos, as estratégias predominantes aumentam a diversidade principalmente injetando mais aleatoriedade em nível de token, o que pode introduzir ruído passo a passo e levar a trajetórias incoerentes. Descobrimos que modelos menores dentro da mesma família de modelos exibem inerentemente maior diversidade em nível de política, indicada por seu pass@k superior em relação a modelos maiores à medida que o número de amostras aumenta. Diferentemente do ruído em nível de token, essa diversidade é correlacionada temporalmente, preserva a consistência lógica e fornece sinais de exploração estruturados para a estimativa de gradientes. Propomos então o S2L-PO (Otimização de Política do Pequeno para o Grande), uma estrutura que utiliza modelos pequenos fixos como exploradores naturais para treinar modelos maiores. Para equilibrar exploração e explotação, projetamos uma estratégia de recozimento progressivo que transita de rollouts offline de modelos pequenos para a amostragem do próprio aprendiz grande. Essa mudança evita elegantemente quedas de desempenho durante o treinamento causadas pelos limites de capacidade do modelo pequeno, alcançando convergência mais rápida e desbloqueando um teto de desempenho mais alto. O S2L-PO melhora a precisão em diversos benchmarks de raciocínio matemático (por exemplo, +8,8% no AIME 24 usando um explorador de 1,7B para guiar o modelo de 8B) enquanto reduz o custo computacional de rollout.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.