Gli scienziati dell'IA producono risultati senza ragionare scientificamente.

Abstract

I sistemi basati su grandi modelli linguistici (LLM) vengono sempre più impiegati per condurre ricerche scientifiche in modo autonomo, ma rimane poco chiaro se il loro ragionamento aderisca alle norme epistemiche che rendono l'indagine scientifica autocorrettiva. In questo studio, valutiamo agenti scientifici basati su LLM in otto domini, dall'esecuzione di workflow all'indagine guidata da ipotesi, attraverso oltre 25.000 esecuzioni di agenti e due prospettive complementari: (i) un'analisi sistematica delle prestazioni che scompone i contributi del modello base e dell'impalcatura dell'agente, e (ii) un'analisi comportamentale della struttura epistemologica del ragionamento dell'agente. Osserviamo che il modello base è il determinante primario sia delle prestazioni che del comportamento, rappresentando il 41,4% della varianza spiegata rispetto all'1,5% dell'impalcatura. In tutte le configurazioni, le evidenze vengono ignorate nel 68% delle tracce, la revisione delle credenze guidata dalla confutazione si verifica nel 26% dei casi, e le evidenze convergenti da test multipli sono rare. Lo stesso schema di ragionamento appare sia quando l'agente esegue un workflow computazionale sia quando conduce un'indagine guidata da ipotesi. Questi pattern persistono anche quando gli agenti ricevono come contesto traiettorie di ragionamento quasi completamente corrette, e l'inaffidabilità risultante si accumula attraverso prove ripetute in domini epistemicamente impegnativi. Pertanto, gli attuali agenti basati su LLM eseguono workflow scientifici ma non mostrano i modelli epistemici che caratterizzano il ragionamento scientifico. La valutazione basata sui risultati non può rilevare questi fallimenti, e l'ingegnerizzazione dell'impalcatura da sola non può correggerli. Fino a quando il ragionamento stesso non diventerà un obiettivo di addestramento, la conoscenza scientifica prodotta da tali agenti non potrà essere giustificata dal processo che l'ha generata.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

Gli scienziati dell'IA producono risultati senza ragionare scientificamente.

AI scientists produce results without reasoning scientifically

Abstract

Support