LaSeR: Aprendizaje por Refuerzo con Autorecompensa del Último Token

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un paradigma central para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Para abordar la falta de señales de verificación durante la fase de prueba, estudios previos han incorporado el entrenamiento de la capacidad de autoverificación del modelo en el proceso estándar de RLVR, unificando así las capacidades de razonamiento y verificación dentro de un solo LLM. Sin embargo, la práctica anterior requiere que el LLM genere secuencialmente soluciones y autoverificaciones utilizando dos plantillas de indicaciones separadas, lo que reduce significativamente la eficiencia. En este trabajo, revelamos teóricamente que la solución de forma cerrada al objetivo de RL de autoverificación puede reducirse a una forma notablemente simple: la recompensa de razonamiento verdadera de una solución es igual a su puntuación de autorecompensa del último token, la cual se calcula como la diferencia entre la probabilidad logarítmica del siguiente token asignada por el modelo de política a cualquier token preespecificado en el último token de la solución y una constante precalculada, escalada por el coeficiente de KL. Basándonos en esta idea, proponemos LaSeR (Aprendizaje por Refuerzo con Autorecompensa del Último Token), un algoritmo que simplemente aumenta la pérdida original de RLVR con una pérdida de error cuadrático medio (MSE) que alinea las puntuaciones de autorecompensa del último token con las recompensas de razonamiento basadas en verificadores, optimizando conjuntamente las capacidades de razonamiento y autorecompensa de los LLMs. Las puntuaciones de autorecompensa optimizadas pueden utilizarse tanto en el entrenamiento como en la prueba para mejorar el rendimiento del modelo. Cabe destacar que nuestro algoritmo deriva estas puntuaciones a partir de la distribución de probabilidad del siguiente token predicha en el último token inmediatamente después de la generación, incurriendo únicamente en el costo adicional mínimo de una inferencia de un token adicional. Los experimentos muestran que nuestro método no solo mejora el rendimiento de razonamiento del modelo, sino que también lo dota de una notable capacidad de autorecompensa, potenciando así su rendimiento de escalado en tiempo de inferencia.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a core paradigm for enhancing the reasoning capabilities of Large Language Models (LLMs). To address the lack of verification signals at test time, prior studies incorporate the training of model's self-verification capability into the standard RLVR process, thereby unifying reasoning and verification capabilities within a single LLM. However, previous practice requires the LLM to sequentially generate solutions and self-verifications using two separate prompt templates, which significantly reduces efficiency. In this work, we theoretically reveal that the closed-form solution to the RL objective of self-verification can be reduced to a remarkably simple form: the true reasoning reward of a solution is equal to its last-token self-rewarding score, which is computed as the difference between the policy model's next-token log-probability assigned to any pre-specified token at the solution's last token and a pre-calculated constant, scaled by the KL coefficient. Based on this insight, we propose LaSeR (Reinforcement Learning with Last-Token Self-Rewarding), an algorithm that simply augments the original RLVR loss with a MSE loss that aligns the last-token self-rewarding scores with verifier-based reasoning rewards, jointly optimizing the reasoning and self-rewarding capabilities of LLMs. The optimized self-rewarding scores can be utilized in both training and testing to enhance model performance. Notably, our algorithm derives these scores from the predicted next-token probability distribution of the last token immediately after generation, incurring only the minimal extra cost of one additional token inference. Experiments show that our method not only improves the model's reasoning performance but also equips it with remarkable self-rewarding capability, thereby boosting its inference-time scaling performance.

LaSeR: Aprendizaje por Refuerzo con Autorecompensa del Último Token

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

Resumen

Support