LaSeR: Aprendizaje por Refuerzo con Autorecompensa del Último Token
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding
October 16, 2025
Autores: Wenkai Yang, Weijie Liu, Ruobing Xie, Yiju Guo, Lulu Wu, Saiyong Yang, Yankai Lin
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un paradigma central para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Para abordar la falta de señales de verificación durante la fase de prueba, estudios previos han incorporado el entrenamiento de la capacidad de autoverificación del modelo en el proceso estándar de RLVR, unificando así las capacidades de razonamiento y verificación dentro de un solo LLM. Sin embargo, la práctica anterior requiere que el LLM genere secuencialmente soluciones y autoverificaciones utilizando dos plantillas de indicaciones separadas, lo que reduce significativamente la eficiencia. En este trabajo, revelamos teóricamente que la solución de forma cerrada al objetivo de RL de autoverificación puede reducirse a una forma notablemente simple: la recompensa de razonamiento verdadera de una solución es igual a su puntuación de autorecompensa del último token, la cual se calcula como la diferencia entre la probabilidad logarítmica del siguiente token asignada por el modelo de política a cualquier token preespecificado en el último token de la solución y una constante precalculada, escalada por el coeficiente de KL. Basándonos en esta idea, proponemos LaSeR (Aprendizaje por Refuerzo con Autorecompensa del Último Token), un algoritmo que simplemente aumenta la pérdida original de RLVR con una pérdida de error cuadrático medio (MSE) que alinea las puntuaciones de autorecompensa del último token con las recompensas de razonamiento basadas en verificadores, optimizando conjuntamente las capacidades de razonamiento y autorecompensa de los LLMs. Las puntuaciones de autorecompensa optimizadas pueden utilizarse tanto en el entrenamiento como en la prueba para mejorar el rendimiento del modelo. Cabe destacar que nuestro algoritmo deriva estas puntuaciones a partir de la distribución de probabilidad del siguiente token predicha en el último token inmediatamente después de la generación, incurriendo únicamente en el costo adicional mínimo de una inferencia de un token adicional. Los experimentos muestran que nuestro método no solo mejora el rendimiento de razonamiento del modelo, sino que también lo dota de una notable capacidad de autorecompensa, potenciando así su rendimiento de escalado en tiempo de inferencia.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a core paradigm for enhancing the reasoning capabilities of Large Language
Models (LLMs). To address the lack of verification signals at test time, prior
studies incorporate the training of model's self-verification capability into
the standard RLVR process, thereby unifying reasoning and verification
capabilities within a single LLM. However, previous practice requires the LLM
to sequentially generate solutions and self-verifications using two separate
prompt templates, which significantly reduces efficiency. In this work, we
theoretically reveal that the closed-form solution to the RL objective of
self-verification can be reduced to a remarkably simple form: the true
reasoning reward of a solution is equal to its last-token self-rewarding score,
which is computed as the difference between the policy model's next-token
log-probability assigned to any pre-specified token at the solution's last
token and a pre-calculated constant, scaled by the KL coefficient. Based on
this insight, we propose LaSeR (Reinforcement Learning with Last-Token
Self-Rewarding), an algorithm that simply augments the original RLVR loss with
a MSE loss that aligns the last-token self-rewarding scores with verifier-based
reasoning rewards, jointly optimizing the reasoning and self-rewarding
capabilities of LLMs. The optimized self-rewarding scores can be utilized in
both training and testing to enhance model performance. Notably, our algorithm
derives these scores from the predicted next-token probability distribution of
the last token immediately after generation, incurring only the minimal extra
cost of one additional token inference. Experiments show that our method not
only improves the model's reasoning performance but also equips it with
remarkable self-rewarding capability, thereby boosting its inference-time
scaling performance.