Autoaprendizado por Reforço Distilado (RLVR)

Resumo

A destilação on-policy (OPD) tornou-se um paradigma de treinamento popular na comunidade de LLM. Este paradigma seleciona um modelo maior como professor para fornecer sinais densos e de granularidade fina para cada trajetória amostrada, em contraste com o aprendizado por reforço com recompensas verificáveis (RLVR), que obtém apenas sinais esparsos a partir de resultados verificáveis no ambiente. Recentemente, a comunidade explorou a autodestilação on-policy (OPSD), onde o mesmo modelo atua como professor e aluno, sendo que o professor recebe informações privilegiadas adicionais, como respostas de referência, para permitir a auto-evolução. Este artigo demonstra que os sinais de aprendizado derivados apenas do professor privilegiado resultam em grave vazamento de informação e treinamento de longo prazo instável. Consequentemente, identificamos o nicho ideal para a autodestilação e propomos o RLSD (RLVR com Autodestilação). Especificamente, aproveitamos a autodestilação para obter diferenças de política a nível de token para determinar magnitudes de atualização de granularidade fina, enquanto continuamos a usar o RLVR para derivar direções de atualização confiáveis a partir do feedback ambiental (por exemplo, a correção da resposta). Isso permite que o RLSD aproveite simultaneamente os pontos fortes do RLVR e do OPSD, alcançando um patamar de convergência mais alto e uma estabilidade de treinamento superior.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

Autoaprendizado por Reforço Distilado (RLVR)

Self-Distilled RLVR

Resumo

Support