RVR Auto-distillée

Résumé

La distillation en-ligne (OPD) est devenue un paradigme d'entraînement populaire dans la communauté des LLM. Ce paradigme sélectionne un modèle plus large comme enseignant pour fournir des signaux denses et fins pour chaque trajectoire échantillonnée, contrairement à l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui n'obtient que des signaux épars à partir des résultats vérifiables dans l'environnement. Récemment, la communauté a exploré l'auto-distillation en-ligne (OPSD), où le même modèle sert à la fois d'enseignant et d'élève, l'enseignant recevant des informations privilégiées supplémentaires telles que des réponses de référence pour permettre une auto-évolution. Cet article démontre que les signaux d'apprentissage dérivés uniquement de l'enseignant privilégié entraînent une fuite d'information sévère et un entraînement à long terme instable. En conséquence, nous identifions la niche optimale pour l'auto-distillation et proposons RLSD (RLVR avec auto-distillation). Concrètement, nous exploitons l'auto-distillation pour obtenir des différences de politique au niveau token afin de déterminer les magnitudes de mise à jour fines, tout en continuant à utiliser RLVR pour dériver des directions de mise à jour fiables à partir des retours environnementaux (par exemple, la justesse des réponses). Cela permet à RLSD de tirer simultanément parti des forces de RLVR et d'OPSD, atteignant un plafond de convergence plus élevé et une stabilité d'entraînement supérieure.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

RVR Auto-distillée

Self-Distilled RLVR

Résumé

Support