SciReasoner: Estableciendo las Bases del Razonamiento Científico a Través de Disciplinas
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
September 25, 2025
Autores: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai
cs.AI
Resumen
Presentamos un modelo fundacional de razonamiento científico que alinea el lenguaje natural con representaciones científicas heterogéneas. El modelo se preentrena en un corpus de 206B tokens que abarca texto científico, secuencias puras y pares secuencia-texto, luego se alinea mediante SFT en 40M instrucciones, utilizando un arranque en frío con recocido para elicitar cadenas de pensamiento extensas, y aprendizaje por refuerzo con modelado de recompensas específicas por tarea, lo que fomenta un razonamiento científico deliberado. Soporta cuatro familias de capacidades, cubriendo hasta 103 tareas en flujos de trabajo: (i) traducción fiel entre texto y formatos científicos, (ii) extracción de texto/conocimiento, (iii) predicción de propiedades, (iv) clasificación de propiedades, (v) generación y diseño de secuencias incondicionales y condicionales. En comparación con sistemas especializados, nuestro enfoque amplía la cobertura de instrucciones, mejora la generalización entre dominios y aumenta la fidelidad. Detallamos la curación de datos y el entrenamiento, y demostramos que el aprendizaje interdisciplinario fortalece la transferencia y la confiabilidad en tareas posteriores. El modelo, los conjuntos de datos para ajuste de instrucciones y el código de evaluación son de código abierto en https://huggingface.co/SciReason y https://github.com/open-sciencelab/SciReason.
English
We present a scientific reasoning foundation model that aligns natural
language with heterogeneous scientific representations. The model is pretrained
on a 206B-token corpus spanning scientific text, pure sequences, and
sequence-text pairs, then aligned via SFT on 40M instructions, annealed
cold-start bootstrapping to elicit long-form chain-of-thought, and
reinforcement learning with task-specific reward shaping, which instills
deliberate scientific reasoning. It supports four capability families, covering
up to 103 tasks across workflows: (i) faithful translation between text and
scientific formats, (ii) text/knowledge extraction, (iii) property prediction,
(iv) property classification, (v) unconditional and conditional sequence
generation and design. Compared with specialist systems, our approach broadens
instruction coverage, improves cross-domain generalization, and enhances
fidelity. We detail data curation and training and show that cross-discipline
learning strengthens transfer and downstream reliability. The model, instruct
tuning datasets and the evaluation code are open-sourced at
https://huggingface.co/SciReason and
https://github.com/open-sciencelab/SciReason.