Más allá del razonamiento: el aprendizaje por refuerzo desbloquea el conocimiento paramétrico en los LLMs

Resumen

El aprendizaje por refuerzo (RL) ha logrado un éxito notable en el razonamiento de los modelos de lenguaje grandes (LLM), pero si también puede mejorar el recuerdo directo del conocimiento paramétrico sigue siendo una pregunta abierta. Estudiamos esta cuestión en un entorno controlado de preguntas y respuestas (QA) de libro cerrado, zero-shot y de un solo salto, sin cadena de pensamiento, entrenando únicamente con recompensas binarias de corrección y aplicando deduplicación de entrenamiento-prueba a nivel de hechos para garantizar que las ganancias reflejen una mejora en el recuerdo y no en el razonamiento o la memorización. En tres familias de modelos y múltiples puntos de referencia de QA factual, el RL produce ganancias relativas promedio de ~27 %, superando tanto las líneas base de entrenamiento como las de inferencia por igual. Desde un punto de vista mecanicista, el RL redistribuye principalmente la masa de probabilidad sobre el conocimiento existente en lugar de adquirir nuevos hechos, desplazando las respuestas correctas de la cola de baja probabilidad hacia generaciones codiciosas confiables. Nuestro estudio de atribución de datos revela que los ejemplos más difíciles son los más informativos: aquellos cuyas respuestas nunca aparecen en 128 muestras previas al RL (solo ~18 % de los datos de entrenamiento) impulsan ~83 % de la ganancia, ya que durante el entrenamiento aún emergen ejecuciones correctas raras que se refuerzan. En conjunto, estos hallazgos amplían el papel del RL más allá del razonamiento, reposicionándolo como una herramienta para desbloquear, en lugar de adquirir, conocimiento paramétrico latente.

English

Reinforcement learning (RL) has achieved remarkable success in LLM reasoning, but whether it can also improve direct recall of parametric knowledge remains an open question. We study this question in a controlled zero-shot, one-hop, closed-book QA setting with no chain-of-thought, training only on binary correctness rewards and applying fact-level train-test deduplication to ensure gains reflect improved recall rather than reasoning or memorization. Across three model families and multiple factual QA benchmarks, RL yields ~27% average relative gains, surpassing both training- and inference-time baselines alike. Mechanistically, RL primarily redistributes probability mass over existing knowledge rather than acquiring new facts, moving correct answers from the low-probability tail into reliable greedy generations. Our data-attribution study reveals that the hardest examples are the most informative: those whose answers never appear in 128 pre-RL samples (only ~18% of training data) drive ~83% of the gain, since rare correct rollouts still emerge during training and get reinforced. Together, these findings broaden the role of RL beyond reasoning, repositioning it as a tool for unlocking rather than acquiring latent parametric knowledge.

Más allá del razonamiento: el aprendizaje por refuerzo desbloquea el conocimiento paramétrico en los LLMs

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Resumen

Support