Das Paradoxon der trügerischen Belohnungen: Ein mechanistisches Verständnis dafür, wie RLVR Gedächtniskurzschlüsse in LLMs aktiviert

papers.abstract

Reinforcement Learning with Verifiable Rewards (RLVR) ist sehr effektiv für die Verbesserung des logischen Schließens von LLMs, doch jüngste Erkenntnisse zeigen, dass Modelle wie Qwen 2.5 selbst mit irreführenden oder falschen Belohnungen erhebliche Leistungssteigerungen erzielen. Wir untersuchen dieses Phänomen und identifizieren ein "Perplexity-Paradoxon": Irreführendes RLVR löst eine Divergenz aus, bei der die Perplexität der Antwort-Tokens sinkt, während die Kohärenz auf der Prompt-Seite abnimmt. Dies deutet darauf hin, dass das Modell das logische Schließen umgeht und sich stattdessen auf Memorisierung verlegt. Mittels Path Patching, Logit Lens, JSD-Analyse und Neuronalen Differentialgleichungen decken wir eine verborgene Anchor-Adapter-Schaltung auf, die diesen Abkürzungsmechanismus ermöglicht. Wir lokalisieren einen funktionalen Anker in den mittleren Schichten (L18-20), der das Abrufen memorierter Lösungen auslöst, gefolgt von strukturellen Adaptern in späteren Schichten (L21+), die Repräsentationen transformieren, um das Abkürzungssignal zu verarbeiten. Abschließend zeigen wir, dass die Skalierung spezifischer MLP-Keys innerhalb dieser Schaltung eine bidirektionale kausale Steuerung ermöglicht – eine künstliche Verstärkung oder Unterdrückung der durch Kontamination getriebenen Leistung. Unsere Ergebnisse liefern eine mechanistische Roadmap zur Identifikation und Minderung von Datenkontamination in RLVR-optimierten Modellen. Code ist verfügbar unter https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

Das Paradoxon der trügerischen Belohnungen: Ein mechanistisches Verständnis dafür, wie RLVR Gedächtniskurzschlüsse in LLMs aktiviert

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

papers.abstract

Support