Verbesserung von Daten- und Belohnungsdesigns für wissenschaftliches Denken in großen Sprachmodellen
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
papers.authors: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
papers.abstract
Die Lösung offener wissenschaftlicher Fragen bleibt eine Herausforderung für große Sprachmodelle, insbesondere aufgrund inhärent unzuverlässiger Supervision und Evaluation. Der Engpass liegt in der Datenerstellung und Reward-Design für wissenschaftliches Post-Training. Wir entwickeln eine groß angelegte, systematische Datenverarbeitungspipeline, die heterogene Open-Source-Wissenschaftsdaten in den Dr. SCI-Datensatz transformiert. Dieser umfasst 1 Million Fragen aus acht MINT-Fächern mit expliziten verifizierbaren/offenen Aufteilungen, skalierbaren Schwierigkeitsannotationen und feinkörnigen Bewertungsrastern, die die Evaluation offener Antworten operationalisieren. Aufbauend auf diesem Datensatz schlagen wir die Dr. SCI-Post-Training-Pipeline vor, die den standardmäßigen SFT->RL-Workflow durch drei Komponenten neu gestaltet: (i) Exploration-Expanding SFT, das die Abdeckung der Reasoning-Muster des Modells vor dem RL-Training erweitert; (ii) Dynamic Difficulty Curriculum, das die Trainingsdaten an die sich entwickelnde wissenschaftliche Fähigkeit des Modells anpasst; und (iii) SciRubric-Guided RL, das stabiles Reinforcement Learning für offene wissenschaftliche Fragen durch rasterbasierte Evaluation mit expliziter Antwortkorrektheit ermöglicht. Das mit der Dr. SCI-Pipeline trainierte Qwen3-4B-Base erzielt 63,2 auf GPQA-diamond und 32,4 auf GPQA-general, übertrifft konsistent starke post-trainierte Baselines wie o1-mini und GPT-4o und demonstriert substanzielle Fortschritte im wissenschaftlichen Reasoning, insbesondere in offenen Settings.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.