擬似的報酬のパラドックス:RLVRがLLMにおける記憶ショートカットを活性化するメカニズムの解明
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
January 16, 2026
著者: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)はLLMの推論能力向上に極めて有効であるが、最近の研究ではQwen 2.5のようなモデルが、虚偽または誤った報酬条件下でも顕著な性能向上を示すことが明らかになっている。本論文ではこの現象を調査し、「パープレキシティの逆説」を特定した。すなわち、虚偽のRLVRが引き起こす分岐現象において、回答トークンのパープレキシティは低下する一方で、プロンプト側の一貫性は劣化し、モデルが推論を回避して記憶依存に移行していることが示唆される。Path Patching、Logit Lens、JSD解析、神経微分方程式を用いた分析により、このショートカットを促進する隠れた「Anchor-Adapter回路」を解明した。中間層(L18-20)に位置する機能的アンカー(Functional Anchor)が記憶された解答の検索をトリガーし、後続層(L21以降)の構造的アダプター(Structural Adapters)が表現を変換してショートカット信号を処理するメカニズムを局所化した。最後に、この回路内の特定のMLPキーをスケーリングすることで、汚染駆動性能の人為的増幅または抑制という双方向の因果制御が可能であることを実証する。本研究はRLVR調整済みモデルにおけるデータ汚染の特定と緩和に向けた機構論的な道筋を提供する。コードはhttps://github.com/idwts/How-RLVR-Activates-Memorization-Shortcutsで公開されている。
English
Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.