Miglioramento dei Dati e della Progettazione dei Premi per il Ragionamento Scientifico nei Grandi Modelli Linguistici
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
Autori: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
Abstract
La risoluzione di domande scientifiche aperte rimane impegnativa per i grandi modelli linguistici, principalmente a causa della supervisione e della valutazione intrinsecamente inaffidabili. Il collo di bottiglia risiede nella costruzione dei dati e nella progettazione dei reward per il post-addestramento scientifico. Abbiamo sviluppato una pipeline di elaborazione dati sistematica e su larga scala che trasforma dati scientifici open-source eterogenei nel dataset Dr. SCI, che comprende 1 milione di domande su otto discipline STEM, con suddivisioni esplicite verificabili/aperte, annotazioni scalabili della difficoltà e rubriche granulari che rendono operativa la valutazione per risposte aperte. Basandosi su questo dataset, proponiamo la pipeline di post-addestramento Dr. SCI, che ridisegna il flusso di lavoro standard SFT -> RL attraverso tre componenti: (i) SFT a Espansione Esplorativa, che amplia la copertura dei modelli di ragionamento del modello prima del RL; (ii) Curriculum Dinamico della Difficoltà, che adatta i dati di addestramento alle capacità scientifiche in evoluzione del modello; e (iii) RL Guidato da SciRubric, che abilita l'apprendimento per rinforzo stabile su domande scientifiche aperte tramite valutazione basata su rubriche con correttezza esplicita della risposta. Qwen3-4B-Base addestrato utilizzando la pipeline Dr. SCI raggiunge 63,2 su GPQA-diamond e 32,4 su GPQA-general, migliorando costantemente rispetto a baseline fortemente post-addestrate come o1-mini e GPT-4o, dimostrando progressi sostanziali nel ragionamento scientifico, specialmente in contesti aperti.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.