ChatPaper.aiChatPaper

Eine Übersicht über wissenschaftliche Large Language Models: Von den Datenfundamenten bis zu den Agentenfronten

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

August 28, 2025
papers.authors: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou
cs.AI

papers.abstract

Wissenschaftliche Large Language Models (Sci-LLMs) revolutionieren die Art und Weise, wie Wissen in der wissenschaftlichen Forschung repräsentiert, integriert und angewendet wird. Dennoch wird ihre Entwicklung durch die komplexe Natur wissenschaftlicher Daten geprägt. Diese Übersichtsarbeit präsentiert eine umfassende, datenzentrierte Synthese, die die Entwicklung von Sci-LLMs als eine Ko-Evolution zwischen Modellen und ihrem zugrunde liegenden Daten-Substrat neu interpretiert. Wir formulieren eine einheitliche Taxonomie wissenschaftlicher Daten und ein hierarchisches Modell wissenschaftlichen Wissens, wobei wir die multimodalen, skalenübergreifenden und domänenspezifischen Herausforderungen betonen, die wissenschaftliche Korpora von allgemeinen Datensätzen der natürlichen Sprachverarbeitung unterscheiden. Wir untersuchen systematisch aktuelle Sci-LLMs, von allgemeinen Grundlagenmodellen bis hin zu spezialisierten Modellen in verschiedenen wissenschaftlichen Disziplinen, und führen eine umfangreiche Analyse von über 270 Vor- und Nachtrainingsdatensätzen durch, um zu zeigen, warum Sci-LLMs besondere Anforderungen stellen – heterogene, multiskalige, unsicherheitsbehaftete Korpora, die Repräsentationen erfordern, die Domäneninvarianz bewahren und domänenübergreifendes Schließen ermöglichen. Bei der Evaluation betrachten wir über 190 Benchmark-Datensätze und zeichnen einen Wandel von statischen Prüfungen hin zu prozess- und entdeckungsorientierten Bewertungen mit fortschrittlichen Evaluationsprotokollen nach. Diese datenzentrierten Analysen beleuchten anhaltende Probleme in der Entwicklung wissenschaftlicher Daten und diskutieren aufkommende Lösungen, die halbautomatisierte Annotationspipelines und Expertenvalidierung einbeziehen. Schließlich skizzieren wir einen Paradigmenwechsel hin zu geschlossenen Systemen, in denen autonome Agenten auf Basis von Sci-LLMs aktiv experimentieren, validieren und zu einer lebendigen, sich entwickelnden Wissensbasis beitragen. Zusammengenommen bietet diese Arbeit einen Fahrplan für den Aufbau vertrauenswürdiger, kontinuierlich weiterentwickelter künstlicher Intelligenz (KI)-Systeme, die als echte Partner bei der Beschleunigung wissenschaftlicher Entdeckungen fungieren.
English
Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.
PDF1253September 1, 2025