Pensar para Recordar: Como o Raciocínio Desbloqueia o Conhecimento Paramétrico em LLMs

Resumo

Embora o raciocínio em LLMs desempenhe um papel natural em matemática, geração de código e perguntas factuais de múltiplos saltos, seu efeito em perguntas factuais simples e de salto único permanece pouco claro. Tais questões não exigem decomposição lógica passo a passo, tornando a utilidade do raciocínio altamente contra-intuitiva. No entanto, descobrimos que habilitar o raciocínio expande substancialmente o limite da capacidade de recuperação do conhecimento paramétrico do modelo, desbloqueando respostas corretas que de outra forma seriam efetivamente inatingíveis. Por que o raciocínio auxilia na recuperação do conhecimento paramétrico quando não há etapas complexas de raciocínio a serem realizadas? Para responder a isso, projetamos uma série de experimentos controlados orientados por hipóteses e identificamos dois mecanismos motrizes principais: (1) um efeito de *buffer* computacional, onde o modelo usa os *tokens* de raciocínio gerados para realizar computação latente independente de seu conteúdo semântico; e (2) o *priming* factual, onde a geração de fatos topicamente relacionados atua como uma ponte semântica que facilita a recuperação da resposta correta. Importantemente, este último mecanismo de autorrecuperação generativa carrega riscos inerentes: demonstramos que alucinar fatos intermediários durante o raciocínio aumenta a probabilidade de alucinações na resposta final. Por fim, mostramos que nossos insights podem ser aproveitados para melhorar diretamente a precisão do modelo, priorizando trajetórias de raciocínio que contenham declarações factuais livres de alucinações.

English

While reasoning in LLMs plays a natural role in math, code generation, and multi-hop factual questions, its effect on simple, single-hop factual questions remains unclear. Such questions do not require step-by-step logical decomposition, making the utility of reasoning highly counterintuitive. Nevertheless, we find that enabling reasoning substantially expands the capability boundary of the model's parametric knowledge recall, unlocking correct answers that are otherwise effectively unreachable. Why does reasoning aid parametric knowledge recall when there are no complex reasoning steps to be done? To answer this, we design a series of hypothesis-driven controlled experiments, and identify two key driving mechanisms: (1) a computational buffer effect, where the model uses the generated reasoning tokens to perform latent computation independent of their semantic content; and (2) factual priming, where generating topically related facts acts as a semantic bridge that facilitates correct answer retrieval. Importantly, this latter generative self-retrieval mechanism carries inherent risks: we demonstrate that hallucinating intermediate facts during reasoning increases the likelihood of hallucinations in the final answer. Finally, we show that our insights can be harnessed to directly improve model accuracy by prioritizing reasoning trajectories that contain hallucination-free factual statements.

Pensar para Recordar: Como o Raciocínio Desbloqueia o Conhecimento Paramétrico em LLMs

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Resumo

Support