Парадокс ложных вознаграждений: механистическое понимание того, как RLVR активирует запоминание ярлыков в больших языковых моделях

Аннотация

Метод обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) высокоэффективен для улучшения логических рассуждений больших языковых моделей (LLM), однако недавние данные показывают, что модели, такие как Qwen 2.5, демонстрируют значительный прогресс даже при использовании ложных или некорректных вознаграждений. Мы исследуем этот феномен и выявляем «Парадокс Перплексии»: ложный RLVR запускает расхождение, при котором перплексия токенов ответа снижается, в то время как связность на стороне промта ухудшается, что указывает на то, что модель обходит логические рассуждения в пользу запоминания. С помощью Path Patching, Logit Lens, анализа JSD и нейронных дифференциальных уравнений мы обнаруживаем скрытую схему «Якорь-Адаптер», которая обеспечивает этот обходной путь. Мы локализуем Функциональный Якорь в средних слоях (L18-20), который запускает извлечение запомненных решений, за которым следуют Структурные Адаптеры в последующих слоях (L21+), которые преобразуют представления для обработки сигнала обходного пути. Наконец, мы демонстрируем, что масштабирование определенных ключей MLP в рамках этой схемы позволяет осуществлять двунаправленное причинное управление — искусственное усиление или подавление производительности, обусловленной контаминацией данных. Наши результаты предоставляют механистическое руководство по выявлению и устранению контаминации данных в моделях, дообученных с помощью RLVR. Код доступен по адресу https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.

Парадокс ложных вознаграждений: механистическое понимание того, как RLVR активирует запоминание ярлыков в больших языковых моделях

Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

Аннотация

Support