大規模言語モデルにおける科学的問題解決の解明:知識と推論のプロービングによるアプローチ
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
August 26, 2025
著者: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI
要旨
科学的問題解決は、LLMにとって独自の課題を提示し、深いドメイン知識とその知識を複雑な推論を通じて適用する能力の両方を必要とします。自動化された科学的推論システムは人間の科学者を支援する大きな可能性を秘めていますが、現在のところ科学的推論を評価するための広く採用された包括的なベンチマークは存在せず、これらのタスクにおける知識と推論の異なる役割を体系的に分離するアプローチもほとんどありません。これらのギャップを埋めるため、私たちは科学的推論タスクのための多様な既存ベンチマークスイートであるSciReasと、より複雑な推論を必要とする選択的サブセットであるSciReas-Proを導入します。私たちの包括的評価は、個々のベンチマークだけに依存する場合には見えない科学的推論のパフォーマンスに関する洞察を明らかにします。次に、科学的タスクにおける推論と知識の異なる役割を研究するためのプロービングフレームワークであるKRUXを提案します。これら二つを組み合わせることで、いくつかの重要な発見をもたらす詳細な分析を行います:(1) モデルパラメータからタスク関連知識を取得することが、LLMの科学的推論における重要なボトルネックであること、(2) 推論モデルは、推論の強化に加えてコンテキスト内で追加された外部知識から一貫して利益を得ること、(3) 言語化された推論を強化することで、LLMがタスク関連知識を表面化する能力が向上すること。最後に、私たちは軽量な分析を行い、科学に焦点を当てたデータ構成と長いCoT SFTに関する同時期の取り組みを比較し、科学的推論のための強力な8BベースラインであるSciLit01をリリースします。
English
Scientific problem solving poses unique challenges for LLMs, requiring both
deep domain knowledge and the ability to apply such knowledge through complex
reasoning. While automated scientific reasoners hold great promise for
assisting human scientists, there is currently no widely adopted holistic
benchmark for evaluating scientific reasoning, and few approaches
systematically disentangle the distinct roles of knowledge and reasoning in
these tasks. To address these gaps, we introduce SciReas, a diverse suite of
existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a
selective subset that requires more complex reasoning. Our holistic evaluation
surfaces insights about scientific reasoning performance that remain hidden
when relying on individual benchmarks alone. We then propose KRUX, a probing
framework for studying the distinct roles of reasoning and knowledge in
scientific tasks. Combining the two, we conduct an in-depth analysis that
yields several key findings: (1) Retrieving task-relevant knowledge from model
parameters is a critical bottleneck for LLMs in scientific reasoning; (2)
Reasoning models consistently benefit from external knowledge added in-context
on top of the reasoning enhancement; (3) Enhancing verbalized reasoning
improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct
a lightweight analysis, comparing our science-focused data composition with
concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline
for scientific reasoning.