Paradosso delle Ricompense Spurie: Comprensione Meccanicistica di Come RLVR Attiva Scorciatoie di Memorizzazione nei LLM
Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
January 16, 2026
Autori: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee
cs.AI
Abstract
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è estremamente efficace per potenziare il ragionamento dei modelli linguistici di grandi dimensioni (LLM), tuttavia recenti evidenze mostrano che modelli come Qwen 2.5 raggiungono miglioramenti significativi anche con ricompense spurie o errate. Indaghiamo questo fenomeno e identifichiamo un "Paradosso della Perplessità": l'RLVR spurio innesca una divergenza in cui la perplessità dei token della risposta diminuisce mentre la coerenza lato prompt si degrada, suggerendo che il modello stia aggirando il ragionamento a favore della memorizzazione. Utilizzando Path Patching, Logit Lens, analisi JSD ed Equazioni Differenziali Neurali, scopriamo un circuito nascosto "Ancora-Adattatore" che facilita questa scorciatoia. Localizziamo un'Ancora Funzionale negli strati intermedi (L18-20) che innesca il recupero di soluzioni memorizzate, seguita da Adattatori Strutturali negli strati successivi (L21+) che trasformano le rappresentazioni per adattarsi al segnale di scorciatoia. Infine, dimostriamo che il ridimensionamento di specifici "key" MLP all'interno di questo circuito permette uno steering causale bidirezionale, amplificando o sopprimendo artificialmente le prestazioni guidate dalla contaminazione. I nostri risultati forniscono una roadmap meccanicistica per identificare e mitigare la contaminazione dei dati nei modelli ottimizzati con RLVR. Il codice è disponibile all'indirizzo https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.