Exploración frente a Explotación: Repensando RLVR mediante Recorte, Entropía y Recompensa Espuria
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
December 18, 2025
Autores: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI
Resumen
Este artículo examina la compensación exploración-explotación en el aprendizaje por refuerzo con recompensas verificables (RLVR), un marco para mejorar el razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Estudios recientes sugieren que RLVR puede elicitar un razonamiento matemático sólido en LLMs mediante dos mecanismos aparentemente paradójicos: las recompensas espurias, que suprimen la explotación al recompensar resultados no relacionados con la verdad fundamental, y la minimización de entropía, que suprime la exploración al impulsar el modelo hacia salidas más confiadas y deterministas. Esto destaca una dinámica desconcertante: tanto desalentar la explotación como desalentar la exploración mejoran el rendimiento del razonamiento, sin embargo, los principios subyacentes que reconcilian estos efectos siguen siendo poco comprendidos. Nos centramos en dos preguntas fundamentales: (i) cómo se relaciona la entropía de la política con el rendimiento, y (ii) si las recompensas espurias producen ganancias, potencialmente a través de la interacción del sesgo de recorte y la contaminación del modelo. Nuestros resultados muestran que el sesgo de recorte bajo recompensas espurias reduce la entropía de la política, conduciendo a salidas más confiadas y deterministas, mientras que la minimización de entropía por sí sola es insuficiente para la mejora. Además, proponemos un modelo de desalineación de recompensas que explica por qué las recompensas espurias pueden mejorar el rendimiento más allá de entornos contaminados. Nuestros hallazgos aclaran los mecanismos detrás de los beneficios de las recompensas espurias y proporcionan principios para un entrenamiento RLVR más efectivo.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.