Самообучение с подкреплением и извлечением признаков (RLVR)

Аннотация

Он-политическая дистилляция (OPD) стала популярной парадигмой обучения в сообществе больших языковых моделей (LLM). В отличие от обучения с подкреплением с верифицируемыми вознаграждениями (RLVR), которое получает лишь разреженные сигналы из верифицируемых исходов в среде, данная парадигма выбирает более крупную модель в качестве учителя для предоставления плотных, мелкозернистых сигналов для каждой сэмплированной траектории. Недавно сообщество исследовало он-политическую самодистилляцию (OPSD), где одна и та же модель выступает и в роли учителя, и в роли ученика, при этом учитель получает дополнительную привилегированную информацию, такую как эталонные ответы, для обеспечения саморазвития. В данной статье демонстрируется, что сигналы обучения, полученные исключительно от привилегированного учителя, приводят к серьезной утечке информации и нестабильному долгосрочному обучению. Соответственно, мы определяем оптимальную нишу для самодистилляции и предлагаем RLSD (RLVR с самодистилляцией). Конкретно, мы используем самодистилляцию для получения потокенных различий политик с целью определения мелкозернистых величин обновления, продолжая при этом использовать RLVR для получения надежных направлений обновления из обратной связи среды (например, корректности ответа). Это позволяет RLSD одновременно использовать преимущества как RLVR, так и OPSD, достигая более высокого потолка сходимости и превосходной стабильности обучения.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

Самообучение с подкреплением и извлечением признаков (RLVR)

Self-Distilled RLVR

Аннотация

Support