Verbetering van Gegevens en Beloningsontwerp voor Wetenschappelijk Redeneren in Grote Taalmodellen

Samenvatting

Het oplossen van open-einde wetenschappelijke vragen blijft een uitdaging voor grote taalmodelen, vooral vanwege inherent onbetrouwbare supervisie en evaluatie. De bottleneck ligt bij de dataconstructie en beloningsontwerp voor wetenschappelijke na-training. Wij ontwikkelen een grootschalige, systematische dataprocessingpijplijn die heterogene open-source wetenschapsdata omzet in de Dr. SCI-dataset, die bestaat uit 1 miljoen vragen over acht STEM-vakken, met expliciete splitsing in verifieerbare/open-einde vragen, schaalbare moeilijkheidsannotatie en fijnmazige rubrics die evaluatie van open-einde antwoorden operationeel maken. Op basis van deze dataset stellen we de Dr. SCI na-trainingspijplijn voor, die de standaard SFT -> RL-werkstroom herontwerpt via drie componenten: (i) Exploration-Expanding SFT, die de dekking van het redeneerpatroon van het model verbreedt vóór RL; (ii) Dynamic Difficulty Curriculum, die de trainingsdata aanpast aan de evoluerende wetenschappelijke capaciteit van het model; en (iii) SciRubric-Guided RL, die stabiele reinforcement learning op open-einde wetenschappelijke vragen mogelijk maakt via rubriekgebaseerde evaluatie met expliciete antwoordcorrectheid. Qwen3-4B-Base getraind met de Dr. SCI-pijplijn behaalt 63.2 op GPQA-diamond en 32.4 op GPQA-general, en verbetert consistent ten opzichte van sterke na-getrainde baselines zoals o1-mini en GPT-4o, wat substantiële vooruitgang demonstreert in wetenschappelijk redeneren, vooral in open-einde settings.

English

Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.

Verbetering van Gegevens en Beloningsontwerp voor Wetenschappelijk Redeneren in Grote Taalmodellen

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

Samenvatting

Support