ChatPaper.aiChatPaper

正確性を超えて:転移によるロバストな推論学習

Beyond Correctness: Learning Robust Reasoning via Transfer

February 9, 2026
著者: Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
cs.AI

要旨

検証可能な報酬による強化学習(RLVR)は最近LLMの推論能力を強化しているが、最終回答の正確性に焦点を当てるあまり、推論プロセス自体の頑健性を確保できないという重大な欠陥がある。我々は「頑健な推論は、それを生み出した主体を超えて有用性を保つべきである」という簡潔な哲学的観点に立ち、推論を「切り詰め・再解釈・継承」を経ても維持される意味伝達の一形態として扱う。この原理に基づき、我々は転移可能な報酬による強化学習(RLTR)を提案する。RLTRは、あるモデルから得た部分推論prefixが別のモデルを正答に導けるかを検証する転移報酬を通じて頑健性を具現化する。これによりLLMは、安定性・解釈性・真の一般化性を備えた推論を生成するよう促進される。本手法は最終回答精度を向上させつつサンプリング一貫性を高め、大幅に少ない訓練ステップで同等の性能を達成する。例えばMATH500では、RLTRはRLVR比でMaj@64が+3.6%ポイント向上し、RLVRの平均精度を訓練ステップ数約2.5分の1で達成する。これにより、より信頼性の高い推論と著しく効率的なサンプル利用を両立させる。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.
PDF51February 13, 2026