KI-Wissenschaftler erzielen Ergebnisse ohne wissenschaftliche Argumentation.

Zusammenfassung

Auf großen Sprachmodellen (LLM) basierende Systeme werden zunehmend eingesetzt, um eigenständig wissenschaftliche Forschung zu betreiben. Dennoch ist kaum verstanden, ob ihre Denkprozesse den epistemischen Normen folgen, die wissenschaftliche Untersuchungen selbstkorrigierend machen. Hier evaluieren wir LLM-basierte wissenschaftliche Agenten in acht Domänen, die von Workflow-Ausführung bis hin zu hypothesengetriebener Forschung reichen, mittels mehr als 25.000 Agentenläufen und durch zwei komplementäre Blickwinkel: (i) eine systematische Leistungsanalyse, die die Beiträge des Basismodells und des Agenten-Scaffolds aufschlüsselt, und (ii) eine Verhaltensanalyse der epistemologischen Struktur der Agentenargumentation. Wir beobachten, dass das Basismodell der primäre Determinant für sowohl Leistung als auch Verhalten ist und 41,4 % der erklärten Varianz ausmacht, verglichen mit 1,5 % für das Scaffold. In allen Konfigurationen werden Beweise in 68 % der Traces ignoriert, widerlegungsgetriebene Überzeugungsrevision tritt in 26 % auf, und konvergierende Mehrfachtests von Beweisen sind selten. Das gleiche Argumentationsmuster zeigt sich unabhängig davon, ob der Agent einen computergestützten Workflow ausführt oder hypothesengetrieben forscht. Es besteht fort, selbst wenn Agenten nahezu vollständige erfolgreiche Argumentationspfade als Kontext erhalten, und die daraus resultierende Unzuverlässigkeit potenziert sich über wiederholte Versuche in epistemisch anspruchsvollen Domänen. Folglich führen aktuelle LLM-basierte Agenten wissenschaftliche Workflows aus, zeigen aber nicht die epistemischen Muster, die wissenschaftliches Denken kennzeichnen. Ergebnisfokussierte Evaluation kann diese Fehler nicht erkennen, und reines Scaffold-Engineering kann sie nicht beheben. Solange die Argumentation selbst kein Trainingsziel ist, kann das von solchen Agenten produzierte wissenschaftliche Wissen nicht durch den Prozess gerechtfertigt werden, der es erzeugt hat.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

KI-Wissenschaftler erzielen Ergebnisse ohne wissenschaftliche Argumentation.

AI scientists produce results without reasoning scientifically

Zusammenfassung

Support