Jenseits des Schlussfolgerns: Bestärkendes Lernen erschließt parametrisches Wissen in LLMs
Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs
May 8, 2026
Autoren: Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat bemerkenswerte Erfolge beim logischen Schließen großer Sprachmodelle (LLMs) erzielt, jedoch bleibt offen, ob es auch das direkte Abrufen parametrischen Wissens verbessern kann. Wir untersuchen diese Frage in einem kontrollierten Zero-Shot-, One-Hop-, Closed-Book-QA-Szenario ohne Chain-of-Thought, trainieren ausschließlich auf binären Korrektheitsbelohnungen und wenden eine Faktenebenen-Trainings-Test-Deduplikation an, um sicherzustellen, dass Verbesserungen auf besseres Abrufen und nicht auf logisches Schließen oder Mechanisieren zurückgehen. Über drei Modellfamilien und mehrere faktische QA-Benchmarks hinweg erzielt RL durchschnittliche relative Steigerungen von etwa 27 % und übertrifft damit sowohl trainings- als auch inferenzzeitliche Basislinien. Mechanistisch betrachtet verteilt RL primär Wahrscheinlichkeitsmasse über vorhandenes Wissen um, anstatt neue Fakten zu erwerben, und verschiebt korrekte Antworten aus dem Niedrigwahrscheinlichkeitsbereich in zuverlässige greedy-Generierungen. Unsere Datenattributionsstudie zeigt, dass die schwierigsten Beispiele am informativsten sind: jene, deren Antworten nie in 128 Pre-RL-Stichproben vorkommen (nur etwa 18 % der Trainingsdaten), treiben etwa 83 % des Gewinns an, da seltene korrekte Rollouts dennoch während des Trainings auftauchen und verstärkt werden. Insgesamt erweitern diese Ergebnisse die Rolle von RL über das logische Schließen hinaus und positionieren es als Werkzeug zur Erschließung, nicht zum Erwerb latenten parametrischen Wissens.
English
Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.