Amélioration des données et de la conception des récompenses pour le raisonnement scientifique dans les grands modèles de langage
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
papers.authors: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
papers.abstract
La résolution de questions scientifiques ouvertes reste un défi pour les grands modèles de langage, en raison notamment d'une supervision et d'une évaluation intrinsèquement peu fiables. Le goulot d'étranglement réside dans la construction des données et la conception des récompenses pour le post-entraînement scientifique. Nous développons un pipeline systématique de traitement de données à grande échelle qui transforme des données scientifiques hétérogènes open-source en l'ensemble de données Dr. SCI, comprenant 1 million de questions couvrant huit disciplines STEM, avec une division explicite vérifiable/ouverte, une annotation scalable de la difficulté et des grilles d'évaluation fines qui opérationnalisent l'évaluation des réponses ouvertes. Sur la base de cet ensemble de données, nous proposons le pipeline de post-entraînement Dr. SCI, qui repense le workflow standard SFT -> RL via trois composantes : (i) le SFT d'expansion de l'exploration, qui élargit la couverture des schémas de raisonnement du modèle avant le RL ; (ii) un curriculum dynamique de difficulté, qui adapte les données d'entraînement aux capacités scientifiques évolutives du modèle ; et (iii) le RL guidé par SciRubric, qui permet un apprentissage par renforcement stable sur des questions scientifiques ouvertes via une évaluation basée sur des grilles explicites de correction. Le modèle Qwen3-4B-Base entraîné avec le pipeline Dr. SCI atteint un score de 63,2 sur GPQA-diamond et 32,4 sur GPQA-general, surpassant constamment des modèles de référence post-entraînés solides comme o1-mini et GPT-4o, démontrant des progrès substantiels en raisonnement scientifique, particulièrement dans des contextes ouverts.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.