Улучшение данных и проектирования вознаграждений для научного мышления в больших языковых моделях
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
Авторы: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
Аннотация
Решение открытых научных вопросов остается сложной задачей для больших языковых моделей, в основном из-за изначально ненадежного контроля и оценки. Основное узкое место заключается в построении данных и проектировании системы вознаграждений для научного пост-обучения. Мы разработали масштабируемый системный конвейер обработки данных, который преобразует разнородные открытые научные данные в набор данных Dr. SCI, включающий 1 миллион вопросов по восьми STEM-дисциплинам с явным разделением на верифицируемые/открытые вопросы, масштабируемой аннотацией сложности и детализированными критериями оценки, которые операционализируют проверку открытых ответов. На основе этого набора данных мы предлагаем конвейер пост-обучения Dr. SCI, перерабатывающий стандартный workflow SFT -> RL через три компонента: (i) SFT с расширением исследовательского охвата, увеличивающий охват модельных паттернов рассуждения до RL; (ii) Учебный план с динамической сложностью, адаптирующий данные обучения к эволюционирующим научным способностям модели; и (iii) RL с научными критериями оценки, обеспечивающий стабильное обучение с подкреплением на открытых научных вопросах через рубрикатор с явной проверкой правильности ответов. Модель Qwen3-4B-Base, обученная по конвейеру Dr. SCI, демонстрирует результаты 63.2 на GPQA-diamond и 32.4 на GPQA-general, стабильно превосходя сильные базовые модели с пост-обучением, такие как o1-mini и GPT-4o, что свидетельствует о значительном прогрессе в научном мышлении, особенно в условиях открытых вопросов.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.