Paradoxe des récompenses fallacieuses : Compréhension mécanistique de l'activation des raccourcis de mémorisation dans les LLM par RLVR
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
January 16, 2026
papers.authors: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est très efficace pour améliorer le raisonnement des LLM, mais des preuves récentes montrent que des modèles comme Qwen 2.5 réalisent des gains significatifs même avec des récompenses fallacieuses ou incorrectes. Nous étudions ce phénomène et identifions un "Paradoxe de la Perplexité" : le RLVR fallacieux déclenche une divergence où la perplexité des tokens de réponse chute tandis que la cohérence du côté du prompt se dégrade, suggérant que le modèle contourne le raisonnement au profit de la mémorisation. En utilisant le Path Patching, le Logit Lens, l'analyse JSD et les équations différentielles neuronales, nous mettons à jour un circuit caché de type Ancrage-Adaptateur qui facilite ce raccourci. Nous localisons une Ancre Fonctionnelle dans les couches intermédiaires (L18-20) qui déclenche la récupération de solutions mémorisées, suivie d'Adaptateurs Structurels dans les couches supérieures (L21+) qui transforment les représentations pour accommoder le signal de raccourci. Enfin, nous démontrons que la mise à l'échelle de clés MLP spécifiques dans ce circuit permet un pilotage causal bidirectionnel - amplifiant ou supprimant artificiellement la performance induite par la contamination. Nos résultats fournissent une feuille de route mécanistique pour identifier et atténuer la contamination des données dans les modèles ajustés par RLVR. Le code est disponible à l'adresse https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.