スケーリング推論は大規模言語モデルの事実性を向上させることができる
Scaling Reasoning can Improve Factuality in Large Language Models
May 16, 2025
著者: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI
要旨
大規模言語モデル(LLM)の推論能力に関する最近の研究では、推論プロセス中に長い思考プロセスと追加の計算リソースを活用することで、特に数学的推論を含むタスクにおいて、モデルの性能が向上することが示されています(Muennighoff et al., 2025)。しかし、数学的コンテキストを超えて、長い推論チェーンが本質的に事実の正確性を向上させるかどうかは依然として不確かです。本研究では、複雑なオープンドメイン質問応答(QA)シナリオにおけるLLMの推論を徹底的に検証します。まず、高度な大規模推論モデル(QwQ-32BおよびDeepSeek-R1-671B)から推論トレースを蒸留し、その後、Qwen2.5ベースの小規模な指示チューニングモデルから大規模アーキテクチャまで、さまざまなモデルを微調整します。推論トレースを充実させるために、知識グラフからの事実情報をパスの形で推論トレースに導入します。実験設定では、4つのベースラインアプローチと6つの異なる指示チューニングモデルを、6つのデータセットにわたる22.6K以上の質問を含むベンチマークで評価します。全体として、168回の実験実行を行い、約170万の推論トレースを分析します。結果として、単一の実行内で、小規模な推論モデルが元の指示チューニングモデルと比較して事実の正確性において顕著な改善を達成することが示されました。さらに、テスト時の計算リソースとトークン予算を追加することで、事実の正確性が一貫して2-8%向上し、オープンドメインQAタスクにおける性能向上と推論精度の向上のためのテスト時スケーリングの有効性が確認されました。今後の研究のために、すべての実験成果物を公開します。
English
Recent studies on large language model (LLM) reasoning capabilities have
demonstrated promising improvements in model performance by leveraging a
lengthy thinking process and additional computational resources during
inference, primarily in tasks involving mathematical reasoning (Muennighoff et
al., 2025). However, it remains uncertain if longer reasoning chains inherently
enhance factual accuracy, particularly beyond mathematical contexts. In this
work, we thoroughly examine LLM reasoning within complex open-domain
question-answering (QA) scenarios. We initially distill reasoning traces from
advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then
fine-tune a variety of models ranging from smaller, instruction-tuned variants
to larger architectures based on Qwen2.5. To enrich reasoning traces, we
introduce factual information from knowledge graphs in the form of paths into
our reasoning traces. Our experimental setup includes four baseline approaches
and six different instruction-tuned models evaluated across a benchmark of six
datasets, encompassing over 22.6K questions. Overall, we carry out 168
experimental runs and analyze approximately 1.7 million reasoning traces. Our
findings indicate that, within a single run, smaller reasoning models achieve
noticeable improvements in factual accuracy compared to their original
instruction-tuned counterparts. Moreover, our analysis demonstrates that adding
test-time compute and token budgets factual accuracy consistently improves by
2-8%, further confirming the effectiveness of test-time scaling for enhancing
performance and consequently improving reasoning accuracy in open-domain QA
tasks. We release all the experimental artifacts for further research.Summary
AI-Generated Summary