L'augmentation de l'échelle du raisonnement peut améliorer la factualité dans les grands modèles de langage.
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
Auteurs: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
Résumé
Les études récentes sur les capacités de raisonnement des grands modèles de langage (LLM) ont montré des améliorations prometteuses des performances des modèles en exploitant un processus de réflexion prolongé et des ressources computationnelles supplémentaires lors de l'inférence, principalement dans les tâches impliquant un raisonnement mathématique (Muennighoff et al., 2025). Cependant, il reste incertain si des chaînes de raisonnement plus longues améliorent intrinsèquement la précision factuelle, en particulier au-delà des contextes mathématiques. Dans ce travail, nous examinons minutieusement le raisonnement des LLM dans des scénarios complexes de question-réponse (QA) en domaine ouvert. Nous distillons initialement des traces de raisonnement à partir de modèles de raisonnement à grande échelle avancés (QwQ-32B et DeepSeek-R1-671B), puis affinons une variété de modèles allant de variantes plus petites et ajustées par instruction à des architectures plus grandes basées sur Qwen2.5. Pour enrichir les traces de raisonnement, nous introduisons des informations factuelles provenant de graphes de connaissances sous forme de chemins dans nos traces de raisonnement. Notre configuration expérimentale comprend quatre approches de base et six modèles différents ajustés par instruction évalués sur un benchmark de six ensembles de données, couvrant plus de 22,6K questions. Au total, nous effectuons 168 exécutions expérimentales et analysons environ 1,7 million de traces de raisonnement. Nos résultats indiquent que, dans une seule exécution, les modèles de raisonnement plus petits obtiennent des améliorations notables de la précision factuelle par rapport à leurs homologues ajustés par instruction d'origine. De plus, notre analyse démontre que l'ajout de ressources computationnelles et de budgets de tokens au moment du test améliore systématiquement la précision factuelle de 2 à 8 %, confirmant ainsi l'efficacité de la mise à l'échelle au moment du test pour améliorer les performances et, par conséquent, la précision du raisonnement dans les tâches de QA en domaine ouvert. Nous publions tous les artefacts expérimentaux pour des recherches ultérieures.
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary