ChatPaper.aiChatPaper

가짜 보상 역설: RLVR가 LLM에서 암기 단축키를 활성화하는 방식을 기계적으로 이해하기

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

January 16, 2026
저자: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM 추론 향상에 매우 효과적이지만, 최근 연구에 따르면 Qwen 2.5와 같은 모델들은 허위 또는 잘못된 보상 하에서도 상당한 성능 향상을 달성합니다. 우리는 이 현상을 조사하여 "퍼플렉시티 패러독스(Perplexity Paradox)"를 확인했습니다. 즉, 허위 RLVR은 정답 토큰의 퍼플렉시티는 감소하는 반면 프롬프트 측의 일관성은 저하되는 divergence를 유발하며, 이는 모델이 추론 과정을 우회하고 암기에 의존하고 있음을 시사합니다. 경로 패칭(Path Patching), 로짓 렌즈(Logit Lens), JSD 분석, 신경 미분 방정식(Neural Differential Equations)을 활용하여 우리는 이러한 지름길을 가능하게 하는 숨겨진 Anchor-Adapter 회로를 발견했습니다. 중간 레이어(L18-20)에 위치한 기능적 앵커(Functional Anchor)가 암기된 해결책을 불러오도록 트리거하고, 이후 레이어(L21+)의 구조적 어댑터(Structural Adapters)가 표현을 변환하여 지름길 신호를 수용하는 것을 규명했습니다. 마지막으로, 이 회로 내 특정 MLP 키를 scaling하면 양방향 인과 조정이 가능함을 보입니다. 즉, 데이터 오염에 기인한 성능을 인위적으로 증폭하거나 억제할 수 있습니다. 우리의 결과는 RLVR로 튜닝된 모델에서 데이터 오염을 식별하고 완화하기 위한 메커니즘적 로드맵을 제공합니다. 코드는 https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts 에서 확인할 수 있습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
PDF52January 21, 2026