Les chercheurs en IA produisent des résultats sans raisonner de manière scientifique.

Résumé

Les systèmes basés sur des modèles de langage de grande taille (LLM) sont de plus en plus déployés pour mener des recherches scientifiques de manière autonome. Pourtant, on comprend encore mal si leur raisonnement respecte les normes épistémiques qui rendent l'investigation scientifique autocorrectrice. Dans cette étude, nous évaluons des agents scientifiques basés sur des LLM dans huit domaines, allant de l'exécution de workflows à l'investigation hypothético-déductive, à travers plus de 25 000 exécutions d'agents et deux approches complémentaires : (i) une analyse systématique des performances qui décompose les contributions du modèle de base et de l'échafaudage de l'agent, et (ii) une analyse comportementale de la structure épistémologique du raisonnement de l'agent. Nous observons que le modèle de base est le principal déterminant des performances et du comportement, expliquant 41,4 % de la variance contre 1,5 % pour l'échafaudage. Dans toutes les configurations, les preuves sont ignorées dans 68 % des traces, la révision des croyances par réfutation intervient dans 26 % des cas, et les preuves convergentes issues de tests multiples sont rares. Le même schéma de raisonnement apparaît que l'agent exécute un workflow informatique ou mène une investigation hypothético-déductive. Ces schémas persistent même lorsque les agents reçoivent des trajectoires de raisonnement quasi complètes et réussies comme contexte, et l'instabilité qui en résulte s'accentue au fil des essais répétés dans des domaines exigeants sur le plan épistémique. Ainsi, les agents actuels basés sur des LLM exécutent des workflows scientifiques mais n'exhibent pas les schémas épistémiques qui caractérisent le raisonnement scientifique. L'évaluation basée sur les résultats ne peut pas détecter ces échecs, et l'ingénierie de l'échafaudage seule ne peut les corriger. Tant que le raisonnement lui-même ne devient pas une cible d'entraînement, les connaissances scientifiques produites par de tels agents ne peuvent être justifiées par le processus qui les a générées.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

Les chercheurs en IA produisent des résultats sans raisonner de manière scientifique.

AI scientists produce results without reasoning scientifically

Résumé

Support