La Laisse Invisible : Pourquoi le RLVR Peut Ne Pas Échapper à Ses Origines
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
papers.authors: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
papers.abstract
Les récents progrès dans les grands modèles de raisonnement mettent en lumière l'apprentissage par renforcement avec récompenses vérifiables (RLVR) comme une méthode prometteuse pour améliorer les capacités de l'IA, en particulier dans la résolution de tâches logiques complexes. Cependant, il reste incertain si le RLVR étend véritablement les limites de raisonnement d'un modèle ou s'il amplifie simplement les sorties à haute récompense que le modèle de base connaît déjà pour améliorer la précision. Cette étude présente une investigation théorique et empirique qui apporte de nouveaux éclairages sur les limites potentielles du RLVR. Premièrement, nous proposons une nouvelle perspective théorique selon laquelle le RLVR est contraint par le support du modèle de base - incapable d'échantillonner des solutions avec une probabilité initiale nulle - et fonctionne comme un mécanisme de repondération conservateur qui peut restreindre la découverte de solutions entièrement originales. Nous identifions également un compromis entropie-récompense : bien que le RLVR améliore de manière fiable la précision, il peut progressivement réduire l'exploration et potentiellement négliger des solutions correctes mais sous-représentées. Des expériences empiriques approfondies valident que, bien que le RLVR améliore systématiquement le pass@1, la réduction du support empirique dépasse généralement l'expansion du support empirique sous des budgets d'échantillonnage plus importants, ne parvenant pas à récupérer des réponses correctes qui étaient auparavant accessibles au modèle de base. Fait intéressant, nous observons également que, bien que le RLVR augmente parfois l'entropie au niveau des tokens, entraînant une plus grande incertitude à chaque étape de génération, l'entropie au niveau des réponses diminue, indiquant que ces chemins apparemment plus incertains convergent finalement vers un ensemble plus restreint de réponses distinctes. Pris ensemble, ces résultats révèlent les limites potentielles du RLVR dans l'extension des horizons de raisonnement. Briser cette laisse invisible pourrait nécessiter de futures innovations algorithmiques telles que des mécanismes d'exploration explicites ou des stratégies hybrides qui répartissent la masse de probabilité dans les régions de solutions sous-représentées.
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.