Autoaprendizaje por Refuerzo con Representación de Valor Refinada

Resumen

La destilación bajo la misma política (OPD) se ha convertido en un paradigma de entrenamiento popular en la comunidad de LLM. Este paradigma selecciona un modelo más grande como profesor para proporcionar señales densas y de grano fino para cada trayectoria muestreada, en contraste con el aprendizaje por refuerzo con recompensas verificables (RLVR), que solo obtiene señales dispersas de los resultados verificables en el entorno. Recientemente, la comunidad ha explorado la auto-destilación bajo la misma política (OPSD), donde el mismo modelo actúa como profesor y estudiante, y el profesor recibe información privilegiada adicional, como respuestas de referencia, para permitir la auto-evolución. Este artículo demuestra que las señales de aprendizaje derivadas únicamente del profesor privilegiado resultan en una grave fuga de información y en un entrenamiento a largo plazo inestable. En consecuencia, identificamos el nicho óptimo para la auto-destilación y proponemos RLSD (RLVR con Auto-Destilación). Específicamente, aprovechamos la auto-destilación para obtener diferencias de política a nivel de token para determinar las magnitudes de actualización de grano fino, mientras continuamos usando RLVR para derivar direcciones de actualización confiables a partir de la retroalimentación ambiental (por ejemplo, la corrección de la respuesta). Esto permite a RLSD aprovechar simultáneamente las fortalezas tanto de RLVR como de OPSD, logrando un techo de convergencia más alto y una estabilidad de entrenamiento superior.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

Autoaprendizaje por Refuerzo con Representación de Valor Refinada

Self-Distilled RLVR

Resumen

Support