Помимо рассуждений: обучение с подкреплением раскрывает параметрические знания в больших языковых моделях
Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs
May 8, 2026
Авторы: Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun
cs.AI
Аннотация
Обучение с подкреплением (RL) достигло значительных успехов в области рассуждений больших языковых моделей (LLM), однако остаётся открытым вопрос, способно ли оно также улучшить прямое извлечение параметрических знаний. Мы исследуем этот вопрос в контролируемой постановке zero-shot, одношагового closed-book QA без цепочки рассуждений, используя для обучения только бинарные сигналы вознаграждения за правильность и применяя дедупликацию на уровне фактов при разделении обучающей и тестовой выборок, чтобы гарантировать, что улучшения обусловлены повышением качества извлечения, а не рассуждения или запоминания. На трёх семействах моделей и нескольких бенчмарках фактологического问答 (QA) RL обеспечивает средний относительный прирост около 27%, превосходя как базовые методы обучения, так и методы инференса. С механистической точки зрения RL в основном перераспределяет вероятностную массу между уже имеющимися знаниями, а не приобретает новые факты, перемещая правильные ответы из хвоста низких вероятностей в надёжные жадные генерации. Наше исследование атрибуции данных показывает, что наиболее информативными оказываются самые сложные примеры: те, чьи ответы ни разу не появляются в 128 выборках до применения RL (составляющие лишь около 18% обучающих данных), обеспечивают около 83% прироста, поскольку редкие правильные траектории всё же возникают в процессе обучения и получают подкрепление. В совокупности эти результаты расширяют роль RL за пределы рассуждений, переосмысливая его как инструмент для раскрытия, а не приобретения латентных параметрических знаний.
English
Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.