Il potenziamento del ragionamento può migliorare la veridicità nei modelli linguistici di grandi dimensioni.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Autori: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Abstract
Studi recenti sulle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato miglioramenti promettenti nelle prestazioni dei modelli sfruttando un processo di pensiero prolungato e risorse computazionali aggiuntive durante l'inferenza, principalmente in compiti che coinvolgono il ragionamento matematico (Muennighoff et al., 2025). Tuttavia, rimane incerto se catene di ragionamento più lunghe migliorino intrinsecamente l'accuratezza fattuale, specialmente al di fuori dei contesti matematici. In questo lavoro, esaminiamo approfonditamente il ragionamento degli LLM in scenari complessi di question-answering (QA) a dominio aperto. Inizialmente distilliamo tracce di ragionamento da modelli avanzati di ragionamento su larga scala (QwQ-32B e DeepSeek-R1-671B), per poi ottimizzare una varietà di modelli che vanno da varianti più piccole e adattate alle istruzioni ad architetture più grandi basate su Qwen2.5. Per arricchire le tracce di ragionamento, introduciamo informazioni fattuali da grafi di conoscenza sotto forma di percorsi nelle nostre tracce di ragionamento. La nostra configurazione sperimentale include quattro approcci di base e sei diversi modelli adattati alle istruzioni valutati su un benchmark di sei dataset, che comprendono oltre 22.6K domande. In totale, eseguiamo 168 esperimenti e analizziamo circa 1.7 milioni di tracce di ragionamento. I nostri risultati indicano che, in una singola esecuzione, i modelli di ragionamento più piccoli raggiungono miglioramenti significativi nell'accuratezza fattuale rispetto alle loro controparti originali adattate alle istruzioni. Inoltre, la nostra analisi dimostra che l'aggiunta di risorse computazionali e di budget di token durante il test migliora costantemente l'accuratezza fattuale del 2-8%, confermando ulteriormente l'efficacia dello scaling durante il test per migliorare le prestazioni e, di conseguenza, l'accuratezza del ragionamento nei compiti di QA a dominio aperto. Rilasciamo tutti gli artefatti sperimentali per ulteriori ricerche.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.