AI-wetenschappers produceren resultaten zonder wetenschappelijk te redeneren.

Samenvatting

Op grote taalmodellen (LLM's) gebaseerde systemen worden steeds vaker ingezet om autonoom wetenschappelijk onderzoek uit te voeren. Toch is er weinig bekend over de vraag of hun redenering voldoet aan de epistemische normen die wetenschappelijke vooruitgang zelfcorrigerend maken. Hier evalueren we op LLM's gebaseerde wetenschappelijke agents in acht domeinen, variërend van workflow-uitvoering tot hypothesegedreven onderzoek, via meer dan 25.000 agent-runs en twee complementaire invalshoeken: (i) een systematische prestatie-analyse die de bijdragen van het basismodel en de agentstructuur ontleedt, en (ii) een gedragsanalyse van de epistemologische structuur van de agentredenering. Wij observeren dat het basismodel de primaire bepalende factor is voor zowel prestaties als gedrag, goed voor 41,4% van de verklaarde variantie versus 1,5% voor de structuur. In alle configuraties wordt bewijs in 68% van de sporen genegeerd, vindt falsificatiegedreven geloofsherziening plaats in 26%, en is convergerend bewijs uit meerdere testen zeldzaam. Hetzelfde redeneerpatroon doet zich voor, ongeacht of de agent een computationele workflow uitvoert of hypothesegedreven onderzoek verricht. Deze patronen blijven bestaan, zelfs wanneer agents bijna volledig succesvolle redeneersporen als context ontvangen, en de resulterende onbetrouwbaarheid stapelt zich op over herhaalde trials in epistemisch veeleisende domeinen. Concluderend voeren op LLM's gebaseerde agents weliswaar wetenschappelijke workflows uit, maar vertonen zij niet de epistemische patronen die wetenschappelijk redeneren kenmerken. Resultaatgerichte evaluatie kan deze tekortkomingen niet detecteren, en alleen technische verbetering van de structuur kan ze niet verhelpen. Zolang redeneren zelf geen expliciet trainingsdoel blijft, kan de wetenschappelijke kennis die door dergelijke agents wordt geproduceerd, niet worden gerechtvaardigd door het proces dat haar genereerde.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

AI-wetenschappers produceren resultaten zonder wetenschappelijk te redeneren.

AI scientists produce results without reasoning scientifically

Samenvatting

Support