Обзор научных больших языковых моделей: от основ данных до границ агентных систем
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers
August 28, 2025
Авторы: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou
cs.AI
Аннотация
Научные большие языковые модели (Sci-LLMs) трансформируют способы представления, интеграции и применения знаний в научных исследованиях, однако их прогресс определяется сложной природой научных данных. В данном обзоре представлен всесторонний, ориентированный на данные синтез, который переосмысливает развитие Sci-LLMs как совместную эволюцию моделей и их базового субстрата данных. Мы формулируем унифицированную таксономию научных данных и иерархическую модель научного знания, подчеркивая мультимодальные, межмасштабные и предметно-ориентированные вызовы, которые отличают научные корпуса от общих наборов данных для обработки естественного языка. Мы систематически рассматриваем последние достижения в области Sci-LLMs, начиная с универсальных базовых моделей и заканчивая специализированными моделями для различных научных дисциплин, а также проводим обширный анализ более 270 наборов данных для предварительного и последующего обучения, показывая, почему Sci-LLMs предъявляют уникальные требования — гетерогенные, многомасштабные, насыщенные неопределенностью корпуса, которые требуют представлений, сохраняющих инвариантность предметной области и обеспечивающих межмодальные рассуждения. В части оценки мы исследуем более 190 эталонных наборов данных и отмечаем переход от статических тестов к процессно- и открыто-ориентированным оценкам с использованием передовых протоколов. Эти ориентированные на данные анализы подчеркивают сохраняющиеся проблемы в разработке научных данных и обсуждают появляющиеся решения, включая полуавтоматизированные конвейеры аннотирования и экспертной валидации. Наконец, мы намечаем сдвиг парадигмы в сторону замкнутых систем, где автономные агенты на основе Sci-LLMs активно экспериментируют, проверяют и вносят вклад в живущую, развивающуюся базу знаний. В совокупности эта работа предоставляет дорожную карту для создания надежных, постоянно развивающихся систем искусственного интеллекта (ИИ), которые функционируют как настоящие партнеры в ускорении научных открытий.
English
Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is
represented, integrated, and applied in scientific research, yet their progress
is shaped by the complex nature of scientific data. This survey presents a
comprehensive, data-centric synthesis that reframes the development of Sci-LLMs
as a co-evolution between models and their underlying data substrate. We
formulate a unified taxonomy of scientific data and a hierarchical model of
scientific knowledge, emphasizing the multimodal, cross-scale, and
domain-specific challenges that differentiate scientific corpora from general
natural language processing datasets. We systematically review recent Sci-LLMs,
from general-purpose foundations to specialized models across diverse
scientific disciplines, alongside an extensive analysis of over 270
pre-/post-training datasets, showing why Sci-LLMs pose distinct demands --
heterogeneous, multi-scale, uncertainty-laden corpora that require
representations preserving domain invariance and enabling cross-modal
reasoning. On evaluation, we examine over 190 benchmark datasets and trace a
shift from static exams toward process- and discovery-oriented assessments with
advanced evaluation protocols. These data-centric analyses highlight persistent
issues in scientific data development and discuss emerging solutions involving
semi-automated annotation pipelines and expert validation. Finally, we outline
a paradigm shift toward closed-loop systems where autonomous agents based on
Sci-LLMs actively experiment, validate, and contribute to a living, evolving
knowledge base. Collectively, this work provides a roadmap for building
trustworthy, continually evolving artificial intelligence (AI) systems that
function as a true partner in accelerating scientific discovery.