Унификация группово-относительной и самодистилляционной оптимизации политик с помощью маршрутизации выборок

Аннотация

Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) стало стандартной парадигмой для посттренировки больших языковых моделей. Хотя групповая относительная оптимизация политики (GRPO) широко применяется, её грубое распределение заслуг равномерно штрафует неудачные прогоны, не обеспечивая фокус на уровне токенов, необходимый для эффективного устранения конкретных отклонений. Оптимизация политики с самодистилляцией (SDPO) решает эту проблему, предоставляя более плотный и целенаправленный надзор на уровне логитов, что способствует быстрому раннему улучшению, однако данный метод часто коллапсирует в ходе продолжительного обучения. Мы связываем эту нестабильность на поздних стадиях с двумя внутренними недостатками: самодистилляция на уже корректных примерах вносит неоднозначность в оптимизацию, а надежность сигнала от самоучителя прогрессивно снижается. Для решения этих проблем мы предлагаем оптимизацию политики с маршрутизацией по примерам (SRPO) — унифицированную он-политик фреймворк, которая направляет корректные примеры на выравнивание с вознаграждением по методу GRPO, а неудачные примеры — на целенаправленную коррекцию на уровне логитов по методу SDPO. SRPO дополнительно включает энтропийно-взвешенный динамический механизм, который подавляет ненадежные цели дистилляции с высокой энтропией, делая акцент на уверенных целях. По результатам оценки на пяти бенчмарках и для двух масштабов моделей, SRPO демонстрирует как быстрое начальное улучшение, характерное для SDPO, так и долгосрочную стабильность GRPO. Метод стабильно превосходит пиковую производительность обоих базовых методов, повышая средний показатель по пяти бенчмаркам для Qwen3-8B на 3.4% по сравнению с GRPO и на 6.3% по сравнению с SDPO, одновременно обеспечивая умеренную длину ответов и снижая вычислительную стоимость на шаг до 17.2%.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Унификация группово-относительной и самодистилляционной оптимизации политик с помощью маршрутизации выборок

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Аннотация

Support