Het Paradox van Valse Beloningen: Een Mechanistisch Inzicht in Hoe RLVR Geheugensnelkoppelingen in LLM's Activeert

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) is zeer effectief voor het verbeteren van het redeneervermogen van LLM's, maar recent bewijs toont aan dat modellen zoals Qwen 2.5 aanzienlijke vooruitgang boeken zelfs met onjuiste of foutieve beloningen. Wij onderzoeken dit fenomeen en identificeren een "Perplexiteitsparadox": RLVR met foutieve beloningen veroorzaakt een divergentie waarbij de perplexiteit van de antwoordtokens daalt, terwijl de coherentie aan de promptzijde verslechtert. Dit suggereert dat het model redeneren omzeilt ten gunste van memorisatie. Met behulp van Path Patching, Logit Lens, JSD-analyse en Neurale Differentiaalvergelijkingen ontdekken we een verborgen Anker-Adapter-circuit dat deze shortcut vergemakkelijkt. We lokaliseren een Functioneel Anker in de middelste lagen (L18-20) dat het ophalen van gememoriseerde oplossingen activeert, gevolgd door Structurele Adapters in latere lagen (L21+) die representaties transformeren om het shortcutsignaal te accommoderen. Ten slotte tonen we aan dat het schalen van specifieke MLP-sleutels binnen dit circuit bidirectioneel causaal sturen mogelijk maakt – het kunstmatig versterken of onderdrukken van prestatie gedreven door contaminatie. Onze resultaten bieden een mechanistische routekaart voor het identificeren en mitigeren van datacontaminatie in met RLVR afgestemde modellen. Code is beschikbaar op https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

Het Paradox van Valse Beloningen: Een Mechanistisch Inzicht in Hoe RLVR Geheugensnelkoppelingen in LLM's Activeert

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

Samenvatting

Support