De Onzichtbare Lijn: Waarom RLVR Mogelijk Niet Aan Zijn Oorsprong Ontsnapt
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
Auteurs: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
Samenvatting
Recente ontwikkelingen in grote redeneermodellen benadrukken Reinforcement Learning met Verifieerbare Beloningen (RLVR) als een veelbelovende methode om de mogelijkheden van AI te verbeteren, met name bij het oplossen van complexe logische taken. Het blijft echter onduidelijk of RLVR daadwerkelijk de redeneergrens van een model verlegt of slechts hoogbeloonde uitvoer versterkt die het basismodel al kent voor verbeterde precisie. Deze studie presenteert een theoretisch en empirisch onderzoek dat nieuwe inzichten biedt in de mogelijke beperkingen van RLVR. Ten eerste bieden we een nieuw theoretisch perspectief dat RLVR wordt beperkt door de ondersteuning van het basismodel—niet in staat om oplossingen te bemonsteren met een aanvankelijke kans van nul—en fungeert als een conservatief herwegingmechanisme dat de ontdekking van volledig originele oplossingen kan beperken. We identificeren ook een entropie-beloning trade-off: hoewel RLVR betrouwbaar de precisie verbetert, kan het geleidelijk aan de exploratie verkleinen en mogelijk correcte maar ondervertegenwoordigde oplossingen over het hoofd zien. Uitgebreide empirische experimenten valideren dat, hoewel RLVR consistent pass@1 verbetert, de krimp van de empirische ondersteuning over het algemeen zwaarder weegt dan de uitbreiding van de empirische ondersteuning onder grotere bemonsteringsbudgetten, waardoor correcte antwoorden die eerder toegankelijk waren voor het basismodel niet worden hersteld. Interessant is dat we ook observeren dat, hoewel RLVR soms de entropie op tokenniveau verhoogt, wat resulteert in grotere onzekerheid bij elke generatiestap, de entropie op antwoordniveau afneemt, wat aangeeft dat deze schijnbaar onzekere paden uiteindelijk convergeren naar een kleinere set van verschillende antwoorden. Samen genomen onthullen deze bevindingen de potentiële beperkingen van RLVR in het uitbreiden van redeneerhorizons. Het doorbreken van deze onzichtbare beperking kan toekomstige algoritmische innovaties vereisen, zoals expliciete exploratiemechanismen of hybride strategieën die waarschijnlijkheidsmassa toevoegen aan ondervertegenwoordigde oplossingsregio's.
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.