SciReasoner: Основы научного мышления в различных дисциплинах
SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
September 25, 2025
Авторы: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai
cs.AI
Аннотация
Мы представляем базовую модель научного рассуждения, которая согласует естественный язык с гетерогенными научными представлениями. Модель предварительно обучается на корпусе из 206 миллиардов токенов, включающем научные тексты, чистые последовательности и пары последовательность-текст, затем выравнивается с помощью SFT на 40 миллионах инструкций, используя метод постепенного "холодного старта" для стимулирования длинных цепочек рассуждений, а также обучение с подкреплением с формированием наград, специфичных для задач, что способствует осознанному научному рассуждению. Модель поддерживает четыре семейства возможностей, охватывающих до 103 задач в различных рабочих процессах: (i) точный перевод между текстом и научными форматами, (ii) извлечение текста/знаний, (iii) предсказание свойств, (iv) классификация свойств, (v) безусловная и условная генерация последовательностей и проектирование. По сравнению с узкоспециализированными системами, наш подход расширяет охват инструкций, улучшает кросс-доменную обобщаемость и повышает точность. Мы подробно описываем процесс подготовки данных и обучения, а также показываем, что междисциплинарное обучение усиливает перенос знаний и надежность в последующих задачах. Модель, наборы данных для настройки инструкций и код для оценки доступны в открытом доступе по адресам https://huggingface.co/SciReason и https://github.com/open-sciencelab/SciReason.
English
We present a scientific reasoning foundation model that aligns natural
language with heterogeneous scientific representations. The model is pretrained
on a 206B-token corpus spanning scientific text, pure sequences, and
sequence-text pairs, then aligned via SFT on 40M instructions, annealed
cold-start bootstrapping to elicit long-form chain-of-thought, and
reinforcement learning with task-specific reward shaping, which instills
deliberate scientific reasoning. It supports four capability families, covering
up to 103 tasks across workflows: (i) faithful translation between text and
scientific formats, (ii) text/knowledge extraction, (iii) property prediction,
(iv) property classification, (v) unconditional and conditional sequence
generation and design. Compared with specialist systems, our approach broadens
instruction coverage, improves cross-domain generalization, and enhances
fidelity. We detail data curation and training and show that cross-discipline
learning strengthens transfer and downstream reliability. The model, instruct
tuning datasets and the evaluation code are open-sourced at
https://huggingface.co/SciReason and
https://github.com/open-sciencelab/SciReason.