ChatPaper.aiChatPaper

L'augmentation de l'échelle du raisonnement peut améliorer la factualité dans les grands modèles de langage.

Scaling Reasoning can Improve Factuality in Large Language Models

May 16, 2025
Auteurs: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI

Résumé

Les études récentes sur les capacités de raisonnement des grands modèles de langage (LLM) ont montré des améliorations prometteuses des performances des modèles en exploitant un processus de réflexion prolongé et des ressources computationnelles supplémentaires lors de l'inférence, principalement dans les tâches impliquant un raisonnement mathématique (Muennighoff et al., 2025). Cependant, il reste incertain si des chaînes de raisonnement plus longues améliorent intrinsèquement la précision factuelle, en particulier au-delà des contextes mathématiques. Dans ce travail, nous examinons minutieusement le raisonnement des LLM dans des scénarios complexes de question-réponse (QA) en domaine ouvert. Nous distillons initialement des traces de raisonnement à partir de modèles de raisonnement à grande échelle avancés (QwQ-32B et DeepSeek-R1-671B), puis affinons une variété de modèles allant de variantes plus petites et ajustées par instruction à des architectures plus grandes basées sur Qwen2.5. Pour enrichir les traces de raisonnement, nous introduisons des informations factuelles provenant de graphes de connaissances sous forme de chemins dans nos traces de raisonnement. Notre configuration expérimentale comprend quatre approches de base et six modèles différents ajustés par instruction évalués sur un benchmark de six ensembles de données, couvrant plus de 22,6K questions. Au total, nous effectuons 168 exécutions expérimentales et analysons environ 1,7 million de traces de raisonnement. Nos résultats indiquent que, dans une seule exécution, les modèles de raisonnement plus petits obtiennent des améliorations notables de la précision factuelle par rapport à leurs homologues ajustés par instruction d'origine. De plus, notre analyse démontre que l'ajout de ressources computationnelles et de budgets de tokens au moment du test améliore systématiquement la précision factuelle de 2 à 8 %, confirmant ainsi l'efficacité de la mise à l'échelle au moment du test pour améliorer les performances et, par conséquent, la précision du raisonnement dans les tâches de QA en domaine ouvert. Nous publions tous les artefacts expérimentaux pour des recherches ultérieures.
English
Recent studies on large language model (LLM) reasoning capabilities have demonstrated promising improvements in model performance by leveraging a lengthy thinking process and additional computational resources during inference, primarily in tasks involving mathematical reasoning (Muennighoff et al., 2025). However, it remains uncertain if longer reasoning chains inherently enhance factual accuracy, particularly beyond mathematical contexts. In this work, we thoroughly examine LLM reasoning within complex open-domain question-answering (QA) scenarios. We initially distill reasoning traces from advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then fine-tune a variety of models ranging from smaller, instruction-tuned variants to larger architectures based on Qwen2.5. To enrich reasoning traces, we introduce factual information from knowledge graphs in the form of paths into our reasoning traces. Our experimental setup includes four baseline approaches and six different instruction-tuned models evaluated across a benchmark of six datasets, encompassing over 22.6K questions. Overall, we carry out 168 experimental runs and analyze approximately 1.7 million reasoning traces. Our findings indicate that, within a single run, smaller reasoning models achieve noticeable improvements in factual accuracy compared to their original instruction-tuned counterparts. Moreover, our analysis demonstrates that adding test-time compute and token budgets factual accuracy consistently improves by 2-8%, further confirming the effectiveness of test-time scaling for enhancing performance and consequently improving reasoning accuracy in open-domain QA tasks. We release all the experimental artifacts for further research.

Summary

AI-Generated Summary

PDF52May 19, 2025