Een overzicht van wetenschappelijke grote taalmodellen: van datafundamenten tot agentfrontieren

Samenvatting

Wetenschappelijke Large Language Models (Sci-LLMs) transformeren de manier waarop kennis wordt gerepresenteerd, geïntegreerd en toegepast in wetenschappelijk onderzoek, maar hun vooruitgang wordt gevormd door de complexe aard van wetenschappelijke data. Dit overzicht biedt een uitgebreide, data-centrische synthese die de ontwikkeling van Sci-LLMs herkadert als een co-evolutie tussen modellen en hun onderliggende datasubstraat. We formuleren een uniforme taxonomie van wetenschappelijke data en een hiërarchisch model van wetenschappelijke kennis, waarbij we de nadruk leggen op de multimodale, cross-schaal- en domeinspecifieke uitdagingen die wetenschappelijke corpora onderscheiden van algemene datasets voor natuurlijke taalverwerking. We bespreken systematisch recente Sci-LLMs, van algemene basis modellen tot gespecialiseerde modellen in diverse wetenschappelijke disciplines, naast een uitgebreide analyse van meer dan 270 pre-/post-trainingsdatasets, waaruit blijkt waarom Sci-LLMs specifieke eisen stellen — heterogene, multi-schaal, onzekerheidsbeladen corpora die representaties vereisen die domeininvariantie behouden en cross-modale redenering mogelijk maken. Bij evaluatie onderzoeken we meer dan 190 benchmarkdatasets en volgen we een verschuiving van statische examens naar proces- en ontdekkinggerichte beoordelingen met geavanceerde evaluatieprotocollen. Deze data-centrische analyses belichten hardnekkige problemen in de ontwikkeling van wetenschappelijke data en bespreken opkomende oplossingen waarbij semi-geautomatiseerde annotatiepijplijnen en expertvalidatie betrokken zijn. Tot slot schetsen we een paradigmaverschuiving naar gesloten-lus systemen waarin autonome agents gebaseerd op Sci-LLMs actief experimenteren, valideren en bijdragen aan een levende, evoluerende kennisbank. Collectief biedt dit werk een routekaart voor het bouwen van betrouwbare, voortdurend evoluerende kunstmatige intelligentie (AI) systemen die functioneren als een echte partner in het versnellen van wetenschappelijke ontdekkingen.

English

Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.

Een overzicht van wetenschappelijke grote taalmodellen: van datafundamenten tot agentfrontieren

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Samenvatting

Support