Los científicos de la IA producen resultados sin razonar científicamente.

Resumen

Los sistemas basados en modelos de lenguaje grande (LLM) se despliegan cada vez más para realizar investigaciones científicas de forma autónoma; sin embargo, se comprende poco si su razonamiento se adhiere a las normas epistémicas que hacen que la investigación científica sea autocorrectiva. En este estudio, evaluamos agentes científicos basados en LLM en ocho dominios, que abarcan desde la ejecución de flujos de trabajo hasta la investigación basada en hipótesis, mediante más de 25.000 ejecuciones de agentes y dos enfoques complementarios: (i) un análisis sistemático del rendimiento que descompone las contribuciones del modelo base y del andamiaje del agente, y (ii) un análisis conductual de la estructura epistémica del razonamiento del agente. Observamos que el modelo base es el principal determinante tanto del rendimiento como del comportamiento, representando el 41,4% de la varianza explicada frente al 1,5% del andamiaje. En todas las configuraciones, se ignora la evidencia en el 68% de las trazas, la revisión de creencias impulsada por la refutación ocurre en el 26%, y la evidencia convergente de múltiples pruebas es rara. El mismo patrón de razonamiento aparece tanto si el agente ejecuta un flujo de trabajo computacional como si realiza una investigación basada en hipótesis. Estos patrones persisten incluso cuando los agentes reciben trayectorias de razonamiento exitosas casi completas como contexto, y la falta de fiabilidad resultante se acumula en ensayos repetidos en dominios epistémicamente exigentes. Por lo tanto, los agentes actuales basados en LLM ejecutan flujos de trabajo científicos pero no exhiben los patrones epistémicos que caracterizan el razonamiento científico. La evaluación basada en resultados no puede detectar estos fallos, y la ingeniería del andamiaje por sí sola no puede corregirlos. Hasta que el razonamiento en sí mismo se convierta en un objetivo de entrenamiento, el conocimiento científico producido por dichos agentes no puede justificarse por el proceso que lo generó.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

Los científicos de la IA producen resultados sin razonar científicamente.

AI scientists produce results without reasoning scientifically

Resumen

Support