大規模言語モデルにおける科学的推論のためのデータ設計と報酬設計の改善
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
著者: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
要旨
大規模言語モデルにとって、科学分野のオープンエンドな設問を解くことは、特に本質的に信頼性の低い教師信号と評価の課題から、依然として困難な課題です。このボトルネックは、科学分野の事後学習におけるデータ構築と報酬設計に存在します。我々は、異種混在のオープンソース科学データを大規模かつ体系的に処理するパイプラインを開発し、Dr. SCIデータセットを構築しました。このデータセットは8つのSTEM科目にわたる100万問の設問から構成され、検証可能な設問とオープンエンドな設問の明示的な分割、拡張可能な難易度注釈、およびオープンエンドな回答の評価を具体化する詳細な評価基準を備えています。このデータセットに基づき、標準的なSFT→RLのワークフローを再設計するDr. SCI事後学習パイプラインを提案します。このパイプラインは以下の3つの構成要素からなります:(i) 探索拡張型SFT:RLの前にモデルの推論パターンの網羅性を拡大する、(ii) 動的難易度カリキュラム:モデルの科学的能力の変化に応じて学習データを適応させる、(iii) 科学評価基準に基づくRL:回答の正しさを明示的に評価するルーブリックベースの評価により、オープンエンドな科学設問に対する安定した強化学習を実現する。Dr. SCIパイプラインを用いて学習したQwen3-4B-Baseは、GPQA-diamondで63.2、GPQA-generalで32.4を達成し、o1-miniやGPT-4oといった強力な事後学習ベースラインを一貫して上回り、特にオープンエンドな設定において科学的推論能力が大幅に向上していることを示しています。
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.