ChatPaper.aiChatPaper

科学的大規模言語モデルの調査:データ基盤からエージェントフロンティアまで

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

August 28, 2025
著者: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou
cs.AI

要旨

科学的大規模言語モデル(Sci-LLMs)は、科学研究における知識の表現、統合、応用の方法を変革しつつあるが、その進展は科学データの複雑な性質によって形作られている。本調査は、Sci-LLMsの開発をモデルとその基盤となるデータ基質との共進化として再構築する、データ中心の包括的な統合を提示する。我々は、科学データの統一的な分類体系と科学知識の階層的モデルを定式化し、科学コーパスを一般的な自然言語処理データセットと区別する、マルチモーダル、クロススケール、ドメイン固有の課題を強調する。我々は、汎用基盤モデルから多様な科学分野にわたる専門モデルまでの最近のSci-LLMsを体系的にレビューし、270以上の事前/事後学習データセットの詳細な分析を通じて、Sci-LLMsがなぜ異質的、マルチスケール、不確実性を伴うコーパスを必要とし、ドメイン不変性を保持し、クロスモーダル推論を可能にする表現を求めるのかを示す。評価においては、190以上のベンチマークデータセットを検証し、静的試験からプロセス指向および発見指向の評価への移行を、先進的な評価プロトコルとともに追跡する。これらのデータ中心の分析は、科学データ開発における持続的な課題を浮き彫りにし、半自動アノテーションパイプラインや専門家検証を含む新たな解決策を議論する。最後に、Sci-LLMsに基づく自律エージェントが積極的に実験し、検証し、進化し続ける知識基盤に貢献する閉ループシステムへのパラダイムシフトを概説する。全体として、本論文は、科学発見を加速する真のパートナーとして機能する、信頼性が高く継続的に進化する人工知能(AI)システムを構築するためのロードマップを提供する。
English
Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.
PDF1253September 1, 2025