Меньшие модели являются естественными исследователями для разнообразия на уровне политики в GRPO.

Аннотация

Мы идентифицируем новое измерение для повышения разнообразия генераций (rollout diversity) в групповой относительной оптимизации политики (GRPO) для больших языковых моделей. Хотя GRPO опирается на разнообразные генерации, преобладающие стратегии в основном увеличивают разнообразие путем внесения большей случайности на уровне токенов, что может приводить к пошаговому шуму и несвязным траекториям. Мы обнаруживаем, что меньшие модели в рамках одного семейства моделей изначально демонстрируют более высокое разнообразие на уровне политики, на что указывает их превосходный показатель pass@k по сравнению с более крупными аналогами при увеличении числа выборок. В отличие от шума на уровне токенов, это разнообразие является темпорально коррелированным, сохраняет логическую согласованность и обеспечивает структурированные исследовательские сигналы для оценки градиента. Таким образом, мы предлагаем S2L-PO (Small-to-Large Policy Optimization) — фреймворк, который использует фиксированные малые модели в качестве естественных исследователей для обучения более крупных моделей. Для баланса между исследованием и эксплуатацией мы разрабатываем стратегию прогрессивного отжига, которая переходит от офлайн-генераций малой модели к собственным выборкам крупного обучаемого. Этот сдвиг элегантно избегает падения производительности в середине обучения, вызванного ограниченными возможностями малой модели, обеспечивая более быструю сходимость и открывая более высокий потолок производительности. S2L-PO улучшает точность на различных бенчмарках математических рассуждений (например, +8,8% на AIME 24 при использовании исследователя с 1,7 млрд параметров для направления модели с 8 млрд параметров), при этом снижая вычислительные затраты на генерации.

English

We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.