SciReasoner: Estabelecendo as Bases do Raciocínio Científico entre Disciplinas

Resumo

Apresentamos um modelo de fundação para raciocínio científico que alinha linguagem natural com representações científicas heterogêneas. O modelo é pré-treinado em um corpus de 206 bilhões de tokens, abrangendo textos científicos, sequências puras e pares de sequência-texto, e então alinhado via SFT (Supervised Fine-Tuning) em 40 milhões de instruções, utilizando bootstrapping de inicialização a frio para eliciar cadeias de pensamento de longo formato e aprendizado por reforço com modelagem de recompensa específica para tarefas, o que instila raciocínio científico deliberado. Ele suporta quatro famílias de capacidades, cobrindo até 103 tarefas em fluxos de trabalho: (i) tradução fiel entre texto e formatos científicos, (ii) extração de texto/conhecimento, (iii) previsão de propriedades, (iv) classificação de propriedades, (v) geração e design de sequências incondicionais e condicionais. Comparado com sistemas especializados, nossa abordagem amplia a cobertura de instruções, melhora a generalização entre domínios e aumenta a fidelidade. Detalhamos a curadoria de dados e o treinamento, e mostramos que o aprendizado interdisciplinar fortalece a transferência e a confiabilidade em tarefas subsequentes. O modelo, os conjuntos de dados de ajuste de instruções e o código de avaliação são disponibilizados como código aberto em https://huggingface.co/SciReason e https://github.com/open-sciencelab/SciReason.

English

We present a scientific reasoning foundation model that aligns natural language with heterogeneous scientific representations. The model is pretrained on a 206B-token corpus spanning scientific text, pure sequences, and sequence-text pairs, then aligned via SFT on 40M instructions, annealed cold-start bootstrapping to elicit long-form chain-of-thought, and reinforcement learning with task-specific reward shaping, which instills deliberate scientific reasoning. It supports four capability families, covering up to 103 tasks across workflows: (i) faithful translation between text and scientific formats, (ii) text/knowledge extraction, (iii) property prediction, (iv) property classification, (v) unconditional and conditional sequence generation and design. Compared with specialist systems, our approach broadens instruction coverage, improves cross-domain generalization, and enhances fidelity. We detail data curation and training and show that cross-discipline learning strengthens transfer and downstream reliability. The model, instruct tuning datasets and the evaluation code are open-sourced at https://huggingface.co/SciReason and https://github.com/open-sciencelab/SciReason.

SciReasoner: Estabelecendo as Bases do Raciocínio Científico entre Disciplinas

SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

Resumo

Support