Il Guinzaglio Invisibile: Perché RLVR Potrebbe Non Sfuggire alle Sue Origini
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
Autori: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento su larga scala evidenziano il Reinforcement Learning con Ricompense Verificabili (RLVR) come un metodo promettente per potenziare le capacità dell'IA, in particolare nella risoluzione di compiti logici complessi. Tuttavia, rimane poco chiaro se l'RLVR espanda veramente i confini del ragionamento di un modello o si limiti ad amplificare gli output ad alta ricompensa che il modello di base conosce già, migliorandone la precisione. Questo studio presenta un'indagine teorica ed empirica che offre nuove intuizioni sui potenziali limiti dell'RLVR. In primo luogo, proponiamo una nuova prospettiva teorica secondo cui l'RLVR è vincolato dal supporto del modello di base—incapace di campionare soluzioni con probabilità iniziale pari a zero—e opera come un meccanismo di ripesatura conservativo che potrebbe limitare la scoperta di soluzioni completamente originali. Identifichiamo inoltre un compromesso tra entropia e ricompensa: sebbene l'RLVR migliori in modo affidabile la precisione, potrebbe progressivamente ridurre l'esplorazione e potenzialmente trascurare soluzioni corrette ma sottorappresentate. Estesi esperimenti empirici convalidano che, sebbene l'RLVR migliori costantemente il pass@1, la riduzione del supporto empirico supera generalmente l'espansione del supporto empirico con budget di campionamento più ampi, fallendo nel recuperare risposte corrette precedentemente accessibili al modello di base. Interessante notare che, mentre l'RLVR a volte aumenta l'entropia a livello di token, risultando in una maggiore incertezza ad ogni passo di generazione, l'entropia a livello di risposta diminuisce, indicando che questi percorsi apparentemente più incerti convergono infine su un insieme più ristretto di risposte distinte. Nel complesso, questi risultati rivelano i potenziali limiti dell'RLVR nell'estendere gli orizzonti del ragionamento. Superare questo invisibile vincolo potrebbe richiedere future innovazioni algoritmiche, come meccanismi di esplorazione esplicita o strategie ibride che distribuiscano massa di probabilità in regioni di soluzione sottorappresentate.
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.