ChatPaper.aiChatPaper

Paradoja de las Recompensas Espurias: Comprensión Mecanicista de Cómo RLVR Activa Atajos de Memorización en los LLM

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

January 16, 2026
Autores: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) es muy eficaz para mejorar el razonamiento de los LLM; sin embargo, evidencia reciente muestra que modelos como Qwen 2.5 logran ganancias significativas incluso con recompensas espurias o incorrectas. Investigamos este fenómeno e identificamos una "Paradoja de la Perplejidad": el RLVR espurio desencadena una divergencia en la que la perplejidad de los tokens de respuesta disminuye mientras se degrada la coherencia en el lado del *prompt*, lo que sugiere que el modelo está eludiendo el razonamiento en favor de la memorización. Utilizando Path Patching, Logit Lens, análisis JSD y Ecuaciones Diferenciales Neuronales, descubrimos un circuito oculto de Anclaje-Adaptador que facilita este atajo. Localizamos un Anclaje Funcional en las capas medias (L18-20) que desencadena la recuperación de soluciones memorizadas, seguido de Adaptadores Estructurales en capas posteriores (L21+) que transforman las representaciones para acomodar la señal de atajo. Finalmente, demostramos que escalar claves específicas de MLP dentro de este circuito permite una dirección causal bidireccional: amplificando o suprimiendo artificialmente el rendimiento impulsado por la contaminación. Nuestros resultados proporcionan una hoja de ruta mecanicista para identificar y mitigar la contaminación de datos en modelos ajustados con RLVR. El código está disponible en https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
PDF52January 21, 2026