ChatPaper.aiChatPaper

과학적 대규모 언어 모델에 대한 조사: 데이터 기반부터 에이전트 프론티어까지

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

August 28, 2025
저자: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou
cs.AI

초록

과학적 대형 언어 모델(Sci-LLMs)은 과학 연구에서 지식이 표현, 통합 및 적용되는 방식을 혁신하고 있으나, 그 발전은 과학 데이터의 복잡한 특성에 의해 형성된다. 본 조사는 Sci-LLMs의 개발을 모델과 그 기반 데이터 기질 간의 공진화로 재구성하는 데이터 중심의 종합적 통합을 제시한다. 우리는 과학 데이터의 통일된 분류 체계와 과학 지식의 계층적 모델을 정립하며, 과학 코퍼스가 일반 자연어 처리 데이터셋과 구별되는 다중모드, 교차 규모 및 도메인 특화적 도전 과제를 강조한다. 우리는 최근의 Sci-LLMs를 체계적으로 검토하며, 일반적인 기반 모델부터 다양한 과학 분야의 특화 모델에 이르기까지, 270개 이상의 사전/사후 학습 데이터셋에 대한 광범위한 분석을 통해 Sci-LLMs가 왜 이질적이고 다중 규모적이며 불확실성이 가득한 코퍼스를 요구하며, 도메인 불변성을 보존하고 교차 모드 추론을 가능하게 하는 표현이 필요한지를 보여준다. 평가 측면에서는 190개 이상의 벤치마크 데이터셋을 검토하며, 정적 평가에서 과정 및 발견 지향적 평가로의 전환을 고급 평가 프로토콜과 함께 추적한다. 이러한 데이터 중심 분석은 과학 데이터 개발에서 지속적인 문제점을 강조하고, 반자동화 주석 파이프라인과 전문가 검증을 포함한 새로운 해결책을 논의한다. 마지막으로, Sci-LLMs 기반의 자율 에이전트가 능동적으로 실험하고 검증하며, 살아 움직이고 진화하는 지식 기반에 기여하는 폐쇄 루프 시스템으로의 패러다임 전환을 제시한다. 종합적으로, 이 작업은 과학적 발견을 가속화하는 진정한 파트너로서 기능하는 신뢰할 수 있고 지속적으로 진화하는 인공지능(AI) 시스템을 구축하기 위한 로드맵을 제공한다.
English
Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.
PDF1253September 1, 2025