Paradoxo das Recompensas Espúrias: Compreensão Mecanicista de Como o RLVR Ativa Atalhos de Memorização em LLMs

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é altamente eficaz para aprimorar o raciocínio de LLMs, no entanto, evidências recentes mostram que modelos como o Qwen 2.5 alcançam ganhos significativos mesmo com recompensas espúrias ou incorretas. Investigamos este fenômeno e identificamos um "Paradoxo da Perplexidade": o RLVR espúrio desencadeia uma divergência na qual a perplexidade dos *tokens* de resposta diminui, enquanto a coerência do lado do *prompt* se degrada, sugerindo que o modelo está contornando o raciocínio em favor da memorização. Utilizando Path Patching, Logit Lens, análise JSD e Equações Diferenciais Neurais, descobrimos um circuito oculto Âncora-Adaptador que facilita este atalho. Localizamos uma Âncora Funcional nas camadas intermediárias (L18-20) que dispara a recuperação de soluções memorizadas, seguida por Adaptadores Estruturais nas camadas posteriores (L21+) que transformam as representações para acomodar o sinal de atalho. Por fim, demonstramos que a ampliação de *keys* específicas de MLP dentro deste circuito permite uma direção causal bidirecional - amplificando ou suprimindo artificialmente o desempenho impulsionado pela contaminação. Nossos resultados fornecem um roteiro mecanicista para identificar e mitigar a contaminação de dados em modelos ajustados por RLVR. O código está disponível em https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

Paradoxo das Recompensas Espúrias: Compreensão Mecanicista de Como o RLVR Ativa Atalhos de Memorização em LLMs

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

Resumo

Support