Die unsichtbare Leine: Warum RLVR seinem Ursprung möglicherweise nicht entkommen kann
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
papers.authors: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Reasoning-Modellen heben Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als vielversprechende Methode zur Verbesserung der Fähigkeiten von KI hervor, insbesondere bei der Lösung komplexer logischer Aufgaben. Es bleibt jedoch unklar, ob RLVR tatsächlich die Reasoning-Grenzen eines Modells erweitert oder lediglich hoch bewertete Ausgaben verstärkt, die das Basismodell bereits kennt, um die Präzision zu verbessern. Diese Studie präsentiert eine theoretische und empirische Untersuchung, die neue Einblicke in die potenziellen Grenzen von RLVR bietet. Zunächst bieten wir eine neue theoretische Perspektive, dass RLVR durch den Support des Basismodells eingeschränkt ist – unfähig, Lösungen mit einer anfänglichen Wahrscheinlichkeit von Null zu sammeln – und als konservativer Gewichtungsmechanismus fungiert, der die Entdeckung völlig originärer Lösungen einschränken kann. Wir identifizieren auch einen Entropie-Belohnungs-Kompromiss: Während RLVR die Präzision zuverlässig verbessert, kann es die Exploration zunehmend einschränken und potenziell korrekte, aber unterrepräsentierte Lösungen übersehen. Umfangreiche empirische Experimente bestätigen, dass RLVR zwar konsistent pass@1 verbessert, die Schrumpfung des empirischen Supports im Allgemeinen die Ausweitung des empirischen Supports bei größeren Sampling-Budgets überwiegt und somit korrekte Antworten, die dem Basismodell zuvor zugänglich waren, nicht wiederhergestellt werden. Interessanterweise beobachten wir auch, dass RLVR manchmal die Token-Level-Entropie erhöht, was zu größerer Unsicherheit bei jedem Generierungsschritt führt, während die Antwort-Level-Entropie abnimmt, was darauf hindeutet, dass diese scheinbar unsichereren Pfade letztendlich auf eine kleinere Menge unterschiedlicher Antworten konvergieren. Zusammengenommen offenbaren diese Erkenntnisse potenzielle Grenzen von RLVR bei der Erweiterung von Reasoning-Horizonten. Das Durchbrechen dieser unsichtbaren Leine könnte zukünftige algorithmische Innovationen erfordern, wie explizite Explorationsmechanismen oder hybride Strategien, die Wahrscheinlichkeitsmasse in unterrepräsentierte Lösungsregionen einbringen.
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.