ChatPaper.aiChatPaper

Меньшие модели являются естественными исследователями для разнообразия на уровне политики в GRPO.

Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

June 2, 2026
Авторы: Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu
cs.AI

Аннотация

Мы идентифицируем новое измерение для повышения разнообразия генераций (rollout diversity) в групповой относительной оптимизации политики (GRPO) для больших языковых моделей. Хотя GRPO опирается на разнообразные генерации, преобладающие стратегии в основном увеличивают разнообразие путем внесения большей случайности на уровне токенов, что может приводить к пошаговому шуму и несвязным траекториям. Мы обнаруживаем, что меньшие модели в рамках одного семейства моделей изначально демонстрируют более высокое разнообразие на уровне политики, на что указывает их превосходный показатель pass@k по сравнению с более крупными аналогами при увеличении числа выборок. В отличие от шума на уровне токенов, это разнообразие является темпорально коррелированным, сохраняет логическую согласованность и обеспечивает структурированные исследовательские сигналы для оценки градиента. Таким образом, мы предлагаем S2L-PO (Small-to-Large Policy Optimization) — фреймворк, который использует фиксированные малые модели в качестве естественных исследователей для обучения более крупных моделей. Для баланса между исследованием и эксплуатацией мы разрабатываем стратегию прогрессивного отжига, которая переходит от офлайн-генераций малой модели к собственным выборкам крупного обучаемого. Этот сдвиг элегантно избегает падения производительности в середине обучения, вызванного ограниченными возможностями малой модели, обеспечивая более быструю сходимость и открывая более высокий потолок производительности. S2L-PO улучшает точность на различных бенчмарках математических рассуждений (например, +8,8% на AIME 24 при использовании исследователя с 1,7 млрд параметров для направления модели с 8 млрд параметров), при этом снижая вычислительные затраты на генерации.
English
We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.