Denken om te Herinneren: Hoe Redeneren Parametrische Kennis Ontsluit in LLM's

Samenvatting

Hoewel redeneren in LLM's een natuurlijke rol speelt bij wiskunde, codegeneratie en meerstaps feitelijke vragen, blijft het effect ervan op eenvoudige, enkelstaps feitelijke vragen onduidelijk. Dergelijke vragen vereisen geen stapsgewijze logische decompositie, waardoor het nut van redeneren zeer contra-intuïtief is. Desalniettemin ontdekken we dat het inschakelen van redeneren de capaciteitsgrens van de parametrische kennisrecall van het model aanzienlijk verruimt, en correcte antwoorden ontsluit die anders effectief onbereikbaar zijn. Waarom helpt redeneren bij parametrische kennisrecall wanneer er geen complexe redeneerstappen nodig zijn? Om dit te beantwoorden, ontwerpen we een reeks hypothese-gestuurde gecontroleerde experimenten en identificeren we twee belangrijke mechanismen: (1) een computationeel buffereffect, waarbij het model de gegenereerde redeneertokens gebruikt om latente berekeningen uit te voeren onafhankelijk van hun semantische inhoud; en (2) feitelijke priming, waarbij het genereren van thematisch verwante feiten dient als een semantische brug die correcte antwoordretrieval vergemakkelijkt. Cruciaal is dat dit laatste generatieve zelf-retrievalmechanisme inherente risico's met zich meedraagt: we tonen aan dat het hallucineren van tussenliggende feiten tijdens het redeneren de kans op hallucinaties in het uiteindelijke antwoord vergroot. Ten slotte laten we zien dat onze inzichten direct kunnen worden benut om de modelnauwkeurigheid te verbeteren door redeneertrajecten te prioriteren die hallucinatievrije feitelijke uitspraken bevatten.

English

While reasoning in LLMs plays a natural role in math, code generation, and multi-hop factual questions, its effect on simple, single-hop factual questions remains unclear. Such questions do not require step-by-step logical decomposition, making the utility of reasoning highly counterintuitive. Nevertheless, we find that enabling reasoning substantially expands the capability boundary of the model's parametric knowledge recall, unlocking correct answers that are otherwise effectively unreachable. Why does reasoning aid parametric knowledge recall when there are no complex reasoning steps to be done? To answer this, we design a series of hypothesis-driven controlled experiments, and identify two key driving mechanisms: (1) a computational buffer effect, where the model uses the generated reasoning tokens to perform latent computation independent of their semantic content; and (2) factual priming, where generating topically related facts acts as a semantic bridge that facilitates correct answer retrieval. Importantly, this latter generative self-retrieval mechanism carries inherent risks: we demonstrate that hallucinating intermediate facts during reasoning increases the likelihood of hallucinations in the final answer. Finally, we show that our insights can be harnessed to directly improve model accuracy by prioritizing reasoning trajectories that contain hallucination-free factual statements.

Denken om te Herinneren: Hoe Redeneren Parametrische Kennis Ontsluit in LLM's

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Samenvatting

Support