Het schalen van redeneervermogen kan de feitelijkheid in grote taalmodellen verbeteren.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Auteurs: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Samenvatting
Recente studies over de redeneervaardigheden van grote taalmodellen (LLM's) hebben veelbelovende verbeteringen in modelprestaties aangetoond door gebruik te maken van een uitgebreid denkproces en extra rekenbronnen tijdens inferentie, voornamelijk bij taken die wiskundig redeneren betreffen (Muennighoff et al., 2025). Het blijft echter onzeker of langere redeneerketens inherent de feitelijke nauwkeurigheid verbeteren, vooral buiten wiskundige contexten. In dit werk onderzoeken we grondig het redeneren van LLM's binnen complexe open-domein vraag-antwoord (QA) scenario's. We destilleren eerst redeneersporen uit geavanceerde, grootschalige redeneermodellen (QwQ-32B en DeepSeek-R1-671B), en fine-tunen vervolgens een verscheidenheid aan modellen, variërend van kleinere, instructie-getunede varianten tot grotere architecturen gebaseerd op Qwen2.5. Om de redeneersporen te verrijken, introduceren we feitelijke informatie uit kennisgrafieken in de vorm van paden in onze redeneersporen. Onze experimentele opzet omvat vier baseline-benaderingen en zes verschillende instructie-getunede modellen die worden geëvalueerd op een benchmark van zes datasets, met meer dan 22.6K vragen. In totaal voeren we 168 experimentele runs uit en analyseren we ongeveer 1.7 miljoen redeneersporen. Onze bevindingen geven aan dat, binnen een enkele run, kleinere redeneermodellen aanzienlijke verbeteringen in feitelijke nauwkeurigheid bereiken in vergelijking met hun oorspronkelijke instructie-getunede tegenhangers. Bovendien toont onze analyse aan dat het toevoegen van rekenkracht en tokenbudgets tijdens de testfase de feitelijke nauwkeurigheid consistent verbetert met 2-8%, wat verder bevestigt dat test-time scaling effectief is voor het verbeteren van prestaties en daarmee de redeneernauwkeurigheid in open-domein QA-taken. We stellen alle experimentele artefacten beschikbaar voor verder onderzoek.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary