ChatPaper.aiChatPaper

A Escalabilidade do Raciocínio Pode Melhorar a Factualidade em Modelos de Linguagem de Grande Escala

Scaling Reasoning can Improve Factuality in Large Language Models

May 16, 2025
Autores: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI

Resumo

Estudos recentes sobre as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) demonstraram melhorias promissoras no desempenho dos modelos ao aproveitar um processo de pensamento prolongado e recursos computacionais adicionais durante a inferência, principalmente em tarefas envolvendo raciocínio matemático (Muennighoff et al., 2025). No entanto, ainda não é certo se cadeias de raciocínio mais longas melhoram inerentemente a precisão factual, especialmente além de contextos matemáticos. Neste trabalho, examinamos minuciosamente o raciocínio de LLMs em cenários complexos de questionamento e resposta (QA) em domínios abertos. Inicialmente, destilamos traços de raciocínio de modelos avançados de raciocínio em grande escala (QwQ-32B e DeepSeek-R1-671B), em seguida, ajustamos finamente uma variedade de modelos, desde variantes menores ajustadas por instrução até arquiteturas maiores baseadas em Qwen2.5. Para enriquecer os traços de raciocínio, introduzimos informações factuais de grafos de conhecimento na forma de caminhos em nossos traços de raciocínio. Nossa configuração experimental inclui quatro abordagens de linha de base e seis modelos diferentes ajustados por instrução avaliados em um benchmark de seis conjuntos de dados, abrangendo mais de 22,6 mil perguntas. No total, realizamos 168 execuções experimentais e analisamos aproximadamente 1,7 milhão de traços de raciocínio. Nossos achados indicam que, em uma única execução, modelos de raciocínio menores alcançam melhorias perceptíveis na precisão factual em comparação com suas contrapartes originais ajustadas por instrução. Além disso, nossa análise demonstra que a adição de recursos computacionais e orçamentos de tokens no momento do teste melhora consistentemente a precisão factual em 2-8%, confirmando ainda mais a eficácia do escalonamento no momento do teste para aprimorar o desempenho e, consequentemente, melhorar a precisão do raciocínio em tarefas de QA em domínios abertos. Disponibilizamos todos os artefatos experimentais para pesquisas futuras.
English
Recent studies on large language model (LLM) reasoning capabilities have demonstrated promising improvements in model performance by leveraging a lengthy thinking process and additional computational resources during inference, primarily in tasks involving mathematical reasoning (Muennighoff et al., 2025). However, it remains uncertain if longer reasoning chains inherently enhance factual accuracy, particularly beyond mathematical contexts. In this work, we thoroughly examine LLM reasoning within complex open-domain question-answering (QA) scenarios. We initially distill reasoning traces from advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then fine-tune a variety of models ranging from smaller, instruction-tuned variants to larger architectures based on Qwen2.5. To enrich reasoning traces, we introduce factual information from knowledge graphs in the form of paths into our reasoning traces. Our experimental setup includes four baseline approaches and six different instruction-tuned models evaluated across a benchmark of six datasets, encompassing over 22.6K questions. Overall, we carry out 168 experimental runs and analyze approximately 1.7 million reasoning traces. Our findings indicate that, within a single run, smaller reasoning models achieve noticeable improvements in factual accuracy compared to their original instruction-tuned counterparts. Moreover, our analysis demonstrates that adding test-time compute and token budgets factual accuracy consistently improves by 2-8%, further confirming the effectiveness of test-time scaling for enhancing performance and consequently improving reasoning accuracy in open-domain QA tasks. We release all the experimental artifacts for further research.
PDF72December 5, 2025