Melhorando o Design de Dados e Recompensas para o Raciocínio Científico em Modelos de Linguagem de Grande Porte
Improving Data and Reward Design for Scientific Reasoning in Large Language Models
February 9, 2026
Autores: Zijie Chen, Zhenghao Lin, Xiao Liu, Zhenzhong Lan, Yeyun Gong, Peng Cheng
cs.AI
Resumo
A resolução de questões científicas de resposta aberta continua a ser um desafio para os grandes modelos de linguagem, principalmente devido à supervisão e avaliação inerentemente não confiáveis. O principal obstáculo reside na construção de dados e no desenho de recompensas para o pós-treinamento científico. Desenvolvemos um *pipeline* sistemático e em larga escala de processamento de dados que transforma dados científicos de código aberto heterogéneos no conjunto de dados Dr. SCI, que compreende 1 milhão de questões em oito disciplinas STEM, com divisões explícitas entre verificáveis e de resposta aberta, anotação escalável de dificuldade e rubricas de avaliação finas que operacionalizam a avaliação de respostas abertas. Com base neste conjunto de dados, propomos o *pipeline* de pós-treinamento Dr. SCI, que redesenha o fluxo de trabalho padrão SFT -> RL através de três componentes: (i) SFT de Expansão da Exploração, que amplia a cobertura de padrões de raciocínio do modelo antes do RL; (ii) Currículo Dinâmico de Dificuldade, que adapta os dados de treino à capacidade científica em evolução do modelo; e (iii) RL Guiado por SciRubric, que permite aprendizagem por reforço estável em questões científicas abertas através de avaliação baseada em rubricas com correção explícita da resposta. O modelo Qwen3-4B-Base treinado com o *pipeline* Dr. SCI atinge 63.2 no GPQA-diamond e 32.4 no GPQA-general, melhorando consistentemente em relação a *baselines* fortemente pós-treinados, como o o1-mini e o GPT-4o, demonstrando ganhos substanciais no raciocínio científico, especialmente em contextos de resposta aberta.
English
Solving open-ended science questions remains challenging for large language models, particularly due to inherently unreliable supervision and evaluation. The bottleneck lies in the data construction and reward design for scientific post-training. We develop a large-scale, systematic data processing pipeline that transforms heterogeneous open-source science data into Dr. SCI dataset, which comprises of 1M questions across eight STEM subjects, with explicit verifiable/open-ended splits, scalable difficulty annotation, and fine-grained rubrics that operationalize evaluation for open-ended answers. Building on this dataset, we propose the Dr. SCI post-training pipeline, which redesigns the standard SFT -> RL workflow through three components: (i) Exploration-Expanding SFT, which broadens the model's reasoning pattern coverage prior to RL; (ii) Dynamic Difficulty Curriculum, which adapts training data to the model's evolving scientific capability; and (iii) SciRubric-Guided RL, which enables stable reinforcement learning on open-ended scientific questions via rubric-based evaluation with explicit answer correctness. Qwen3-4B-Base trained using Dr. SCI pipeline achieves 63.2 on GPQA-diamond and 32.4 on GPQA-general, consistently improves over strong post-trained baselines such as o1-mini and GPT-4o, demonstrating substantial gains in scientific reasoning, especially in open-ended settings.