ChatPaper.aiChatPaper

대규모 언어 모델의 과학적 추론 능력 향상을 위한 데이터 및 보상 설계 개선

Improving Data and Reward Design for Scientific Reasoning in Large Language Models

February 9, 2026
저자: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI

초록

자유형 과학 문제 해결은 특히 본질적으로 신뢰하기 어려운 감독(supervision)과 평가로 인해 대규모 언어 모델에게 여전히 어려운 과제입니다. 이 문제의 병목 현상은 과학적 사후 학습(post-training)을 위한 데이터 구축과 보상 설계에 있습니다. 우리는 이질적인 오픈소스 과학 데이터를 체계적으로 처리하는 대규모 파이프라인을 개발하여 Dr. SCI 데이터셋을 구축했습니다. 이 데이터셋은 8개의 STEM 분야에 걸쳐 100만 개의 질문으로 구성되며, 명시적인 검증 가능/자유형 분할, 확장 가능한 난이도 주석, 그리고 자유형 답변 평가를 구체화하는 세분화된 채점 기준(rubric)을 포함합니다. 이 데이터셋을 기반으로 우리는 Dr. SCI 사후 학습 파이프라인을 제안합니다. 이 파이프라인은 표준 SFT -> RL 워크플로우를 세 가지 구성 요소를 통해 재설계합니다: (i) 탐색 확장 SFT(Exploration-Expanding SFT): RL 단계 전에 모델의 추론 패턴 범위를 확장합니다. (ii) 동적 난이도 커리큘럼(Dynamic Difficulty Curriculum): 모델의 진화하는 과학적 역량에 맞춰 학습 데이터를 조정합니다. (iii) 과학 채점 기준 기반 RL(SciRubric-Guided RL): 명시적인 답변 정확도를 바탕으로 한 채점 기준 평가를 통해 자유형 과학 문제에 대한 안정적인 강화 학습을 가능하게 합니다. Dr. SCI 파이프라인을 사용해 학습된 Qwen3-4B-Base 모델은 GPQA-diamond에서 63.2점, GPQA-general에서 32.4점을 달성하여 o1-mini 및 GPT-4o와 같은 강력한 사후 학습 기준 모델들을 꾸준히 능가하며, 특히 자유형 설정에서 과학적 추론 능력에서 상당한 향상을 입증했습니다.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.
PDF351February 11, 2026