추론을 넘어서: 강화 학습이 LLM의 매개변수 지식을 발현시키다
Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs
May 8, 2026
저자: Wanli Yang, Hongyu Zang, Junwei Zhang, Wenjie Shi, Du Su, Jingang Wang, Xueqi Cheng, Fei Sun
cs.AI
초록
강화학습(RL)은 LLM 추론에서 놀라운 성공을 거두었지만, 파라메트릭 지식의 직접적인 회상을 향상시킬 수 있는지 여부는 여전히 미해결 질문으로 남아 있다. 우리는 이 질문을 사고 사슬 없이, 이진 정확도 보상만으로 학습하고, 사실 수준의 학습-테스트 중복 제거를 적용하여 성과 향상이 추론이나 암기가 아닌 회상 개선을 반영하도록 한 통제된 제로샷, 단일 홉, 클로즈드북 QA 환경에서 연구한다. 세 가지 모델 패밀리와 여러 사실 기반 QA 벤치마크에서 RL은 평균 약 27%의 상대적 이득을 보여, 학습 및 추론 시점 기준을 모두 능가한다. 기계적으로, RL은 새로운 사실을 획득하기보다는 기존 지식에 걸친 확률 질량을 재분배하여, 정답을 낮은 확률 꼬리에서 신뢰할 수 있는 탐욕적 생성으로 이동시킨다. 우리의 데이터 귀인 연구에 따르면, 가장 어려운 예제가 가장 유익하다. 답변이 128개의 사전 RL 샘플(전체 학습 데이터의 약 18%에 불과)에 전혀 나타나지 않은 예제가 약 83%의 이득을 유발하는데, 이는 드문 정답 롤아웃이 학습 중에도 여전히 나타나 강화되기 때문이다. 종합하면, 이러한 발견은 RL의 역할을 추론 너머로 확장하여, 잠재적 파라메트릭 지식을 획득하는 도구가 아니라 잠금 해제하는 도구로 재정립한다.
English
Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.