見えない鎖:RLVRがその起源から逃れられない理由
The Invisible Leash: Why RLVR May Not Escape Its Origin
July 20, 2025
著者: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI
要旨
大規模推論モデルの最近の進展は、特に複雑な論理タスクの解決において、検証可能な報酬を用いた強化学習(RLVR)がAIの能力を向上させる有望な手法として注目されています。しかし、RLVRがモデルの推論境界を真に拡張するのか、それともベースモデルが既に知っている高報酬の出力を精度向上のために増幅するだけなのかは、依然として不明確です。本研究は、RLVRの潜在的な限界について新たな洞察を提供する理論的・実証的な調査を提示します。まず、RLVRがベースモデルのサポートに制約されること―初期確率がゼロの解をサンプリングできないこと―を指摘し、RLVRが保守的な再重み付けメカニズムとして機能し、完全に独創的な解の発見を制限する可能性があるという新たな理論的視点を提供します。また、エントロピーと報酬のトレードオフを特定します。RLVRは確実に精度を向上させますが、探索を徐々に狭め、正解でありながら過小評価されている解を見落とす可能性があります。大規模な実証実験により、RLVRが一貫してpass@1を改善する一方で、サンプリング予算が大きくなるにつれて、経験的サポートの縮小が拡大を上回り、ベースモデルが以前にアクセスできた正解を回復できないことが検証されました。興味深いことに、RLVRがトークンレベルのエントロピーを増加させ、各生成ステップでの不確実性を高める場合がある一方で、回答レベルのエントロピーは低下し、これらの一見不確実なパスが最終的により少数の異なる回答に収束することを観察しました。これらの発見を総合すると、RLVRが推論の地平線を拡張する上での潜在的な限界が明らかになります。この見えない制約を打破するためには、明示的な探索メカニズムや、過小評価されている解の領域に確率質量を注入するハイブリッド戦略などの将来のアルゴリズム革新が必要となるかもしれません。
English
Recent advances in large reasoning models highlight Reinforcement Learning
with Verifiable Rewards (RLVR) as a promising method for enhancing AI's
capabilities, particularly in solving complex logical tasks. However, it
remains unclear whether RLVR truly expands a model's reasoning boundary or
merely amplifies high-reward outputs that the base model already knows for
improved precision. This study presents a theoretical and empirical
investigation that provides fresh insights into the potential limits of RLVR.
First, we offer a new theoretical perspective that RLVR is constrained by the
base model's support-unable to sample solutions with zero initial
probability-and operates as a conservative reweighting mechanism that may
restrict the discovery of entirely original solutions. We also identify an
entropy-reward tradeoff: while RLVR reliably enhances precision, it may
progressively narrow exploration and potentially overlook correct yet
underrepresented solutions. Extensive empirical experiments validate that while
RLVR consistently improves pass@1, the shrinkage of empirical support generally
outweighs the expansion of empirical support under larger sampling budgets,
failing to recover correct answers that were previously accessible to the base
model. Interestingly, we also observe that while RLVR sometimes increases
token-level entropy, resulting in greater uncertainty at each generation step,
answer-level entropy declines, indicating that these seemingly more uncertain
paths ultimately converge onto a smaller set of distinct answers. Taken
together, these findings reveal potential limits of RLVR in extending reasoning
horizons. Breaking this invisible leash may require future algorithmic
innovations such as explicit exploration mechanisms or hybrid strategies that
seed probability mass into underrepresented solution regions.