Pensar para recordar: Cómo el razonamiento libera el conocimiento paramétrico en los LLM

Resumen

Si bien el razonamiento en los LLM desempeña un papel natural en matemáticas, generación de código y preguntas fácticas de múltiples saltos, su efecto en preguntas fácticas simples y de un solo salto sigue sin estar claro. Este tipo de preguntas no requieren una descomposición lógica paso a paso, lo que hace que la utilidad del razonamiento sea altamente contraintuitiva. No obstante, descubrimos que habilitar el razonamiento expande sustancialmente el límite de capacidad del recuerdo de conocimiento paramétrico del modelo, desbloqueando respuestas correctas que de otro modo serían efectivamente inalcanzables. ¿Por qué ayuda el razonamiento al recuerdo de conocimiento paramétrico cuando no hay pasos de razonamiento complejos que realizar? Para responder esto, diseñamos una serie de experimentos controlados basados en hipótesis e identificamos dos mecanismos impulsores clave: (1) un efecto de búfer computacional, donde el modelo utiliza los tokens de razonamiento generados para realizar cálculos latentes independientes de su contenido semántico; y (2) la preparación factual (priming), donde la generación de hechos temáticamente relacionados actúa como un puente semántico que facilita la recuperación de la respuesta correcta. Es importante destacar que este último mecanismo de auto-recuperación generativa conlleva riesgos inherentes: demostramos que alucinar hechos intermedios durante el razonamiento aumenta la probabilidad de alucinaciones en la respuesta final. Finalmente, mostramos que nuestras ideas pueden aprovecharse para mejorar directamente la precisión del modelo priorizando trayectorias de razonamiento que contengan afirmaciones factuales libres de alucinaciones.

English

While reasoning in LLMs plays a natural role in math, code generation, and multi-hop factual questions, its effect on simple, single-hop factual questions remains unclear. Such questions do not require step-by-step logical decomposition, making the utility of reasoning highly counterintuitive. Nevertheless, we find that enabling reasoning substantially expands the capability boundary of the model's parametric knowledge recall, unlocking correct answers that are otherwise effectively unreachable. Why does reasoning aid parametric knowledge recall when there are no complex reasoning steps to be done? To answer this, we design a series of hypothesis-driven controlled experiments, and identify two key driving mechanisms: (1) a computational buffer effect, where the model uses the generated reasoning tokens to perform latent computation independent of their semantic content; and (2) factual priming, where generating topically related facts acts as a semantic bridge that facilitates correct answer retrieval. Importantly, this latter generative self-retrieval mechanism carries inherent risks: we demonstrate that hallucinating intermediate facts during reasoning increases the likelihood of hallucinations in the final answer. Finally, we show that our insights can be harnessed to directly improve model accuracy by prioritizing reasoning trajectories that contain hallucination-free factual statements.

Pensar para recordar: Cómo el razonamiento libera el conocimiento paramétrico en los LLM

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Resumen

Support