La Correa Invisible: Por Qué RLVR Puede No Escapar de Su Origen
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
Autores: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
Resumen
Los avances recientes en modelos de razonamiento a gran escala destacan el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) como un método prometedor para mejorar las capacidades de la IA, particularmente en la resolución de tareas lógicas complejas. Sin embargo, sigue sin estar claro si el RLVR realmente expande los límites del razonamiento de un modelo o simplemente amplifica las salidas de alta recompensa que el modelo base ya conoce para mejorar la precisión. Este estudio presenta una investigación teórica y empírica que ofrece nuevas perspectivas sobre los límites potenciales del RLVR. En primer lugar, proporcionamos una nueva perspectiva teórica que sugiere que el RLVR está limitado por el soporte del modelo base—incapaz de muestrear soluciones con probabilidad inicial cero—y opera como un mecanismo de reponderación conservador que puede restringir el descubrimiento de soluciones completamente originales. También identificamos una compensación entre entropía y recompensa: aunque el RLVR mejora de manera confiable la precisión, puede reducir progresivamente la exploración y potencialmente pasar por alto soluciones correctas pero subrepresentadas. Experimentos empíricos extensos validan que, aunque el RLVR mejora consistentemente el pass@1, la reducción del soporte empírico generalmente supera la expansión del soporte empírico bajo presupuestos de muestreo más grandes, lo que impide recuperar respuestas correctas que antes eran accesibles para el modelo base. Curiosamente, también observamos que, aunque el RLVR a veces aumenta la entropía a nivel de token, lo que resulta en una mayor incertidumbre en cada paso de generación, la entropía a nivel de respuesta disminuye, lo que indica que estos caminos aparentemente más inciertos finalmente convergen en un conjunto más pequeño de respuestas distintas. En conjunto, estos hallazgos revelan límites potenciales del RLVR para extender los horizontes de razonamiento. Romper esta correa invisible podría requerir innovaciones algorítmicas futuras, como mecanismos de exploración explícitos o estrategias híbridas que distribuyan masa de probabilidad en regiones de soluciones subrepresentadas.
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.