Selbst-destilliertes RLVR

Zusammenfassung

On-policy Distillation (OPD) hat sich zu einem beliebten Trainingsparadigma in der LLM-Community entwickelt. Dieses Paradigma wählt ein größeres Modell als Lehrer aus, um für jede abgetastete Trajektorie dichte, feinkörnige Signale bereitzustellen. Dies steht im Gegensatz zu Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), das nur spärliche Signale aus verifizierbaren Ergebnissen in der Umgebung erhält. Kürzlich hat die Community On-policy Self-Distillation (OPSD) untersucht, bei der dasselbe Modell sowohl Lehrer als auch Schüler ist, wobei der Lehrer zusätzliche privilegierte Informationen erhält, wie z.B. Referenzantworten, um eine Selbstevolution zu ermöglichen. Dieses Papier zeigt, dass Lernsignale, die ausschließlich vom privilegierten Lehrer abgeleitet werden, zu schwerwiegendem Informationsleckage und instabilem Langzeittraining führen. Dementsprechend identifizieren wir die optimale Nische für Selbst-Distillation und schlagen RLSD (RLVR mit Self-Distillation) vor. Konkret nutzen wir Selbst-Distillation, um tokenweise Politikunterschiede zu erhalten, um feinkörnige Aktualisierungsbeträge zu bestimmen, während wir weiterhin RLVR einsetzen, um zuverlässige Aktualisierungsrichtungen aus dem Umweltfeedback (z.B. Antwortkorrektheit) abzuleiten. Dies ermöglicht es RLSD, gleichzeitig die Stärken von RLVR und OPSD zu nutzen und eine höhere Konvergenzgrenze sowie überlegene Trainingsstabilität zu erreichen.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

Selbst-destilliertes RLVR

Self-Distilled RLVR

Zusammenfassung

Support