RLVRにおける一般化の限界:数学的推論における2つの事例研究
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
著者: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
要旨
数学的推論は大規模言語モデル(LLM)における中心的な課題であり、正しい答えだけでなく、忠実な推論プロセスを必要とする。検証可能な報酬による強化学習(RLVR)は、このような能力を強化する有望なアプローチとして登場したが、真の推論を促進する能力は未だ不明である。本研究では、唯一の最適解を持つ注意深く選別されたデータセットを用いて、完全に検証可能な解を有する二つの組合せ問題——活動スケジューリング問題と最長増加部分列問題——に対するRLVRを検証する。複数の報酬設計にわたって、RLVRが評価指標を改善するものの、それは新しい推論戦略を獲得するというより、表面的なヒューリスティクスを強化することによる場合が多いことを見出した。これらの知見はRLVRの汎化の限界を浮き彫りにし、真の数学的推論と近道解法の利用を区別し、進捗を忠実に測定するベンチマークの重要性を強調する。コードはhttps://github.com/xashru/rlvr-seq-generalizationで入手可能。
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.