Au-delà du raisonnement : l'apprentissage par renforcement libère les connaissances paramétriques dans les LLMs

Résumé

L'apprentissage par renforcement (RL) a obtenu un succès remarquable dans le raisonnement des grands modèles de langage (LLM), mais la question de savoir s'il peut également améliorer le rappel direct de connaissances paramétriques reste ouverte. Nous étudions cette question dans un cadre contrôlé de questions-réponses à livre fermé, à un saut et en mode zéro tir, sans chaîne de pensée, en nous entraînant uniquement sur des récompenses de correction binaires et en appliquant une déduplication au niveau des faits entre ensembles d'entraînement et de test, afin de garantir que les gains reflètent une amélioration du rappel plutôt qu'un raisonnement ou une mémorisation. À travers trois familles de modèles et plusieurs références de questions-réponses factuelles, le RL produit des gains relatifs moyens d'environ 27 %, surpassant à la fois les références en entraînement et en inférence. Sur le plan mécanique, le RL redistribue principalement la masse de probabilité sur des connaissances existantes plutôt que d'acquérir de nouveaux faits, déplaçant les réponses correctes de la queue de probabilité faible vers des générations gloutonnes fiables. Notre étude d'attribution des données révèle que les exemples les plus difficiles sont les plus informatifs : ceux dont les réponses n'apparaissent jamais dans 128 échantillons pré-RL (seulement environ 18 % des données d'entraînement) génèrent environ 83 % du gain, car des trajectoires correctes rares émergent encore pendant l'entraînement et sont renforcées. Ensemble, ces résultats élargissent le rôle du RL au-delà du raisonnement, le repositionnant comme un outil pour débloquer, plutôt qu'acquérir, des connaissances paramétriques latentes.

English

Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.

Au-delà du raisonnement : l'apprentissage par renforcement libère les connaissances paramétriques dans les LLMs

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Résumé

Support