Cientistas de IA produzem resultados sem raciocinar cientificamente.

Resumo

Sistemas baseados em modelos de linguagem de grande porte (LLM) estão sendo cada vez mais implantados para conduzir pesquisas científicas de forma autônoma, mas ainda é pouco compreendido se o seu raciocínio adere às normas epistêmicas que tornam a investigação científica autorregulada. Aqui, avaliamos agentes científicos baseados em LLM em oito domínios, abrangendo desde a execução de fluxos de trabalho até a investigação orientada por hipóteses, por meio de mais de 25.000 execuções de agentes e duas lentes complementares: (i) uma análise sistemática de desempenho que decompõe as contribuições do modelo base e da estrutura do agente (scaffold), e (ii) uma análise comportamental da estrutura epistêmica do raciocínio do agente. Observamos que o modelo base é o principal determinante tanto do desempenho quanto do comportamento, respondendo por 41,4% da variância explicada, em comparação com 1,5% para a estrutura. Em todas as configurações, as evidências são ignoradas em 68% dos rastreamentos, a revisão de crenças impulsionada pela refutação ocorre em 26% dos casos, e evidências convergentes de múltiplos testes são raras. O mesmo padrão de raciocínio aparece se o agente executa um fluxo de trabalho computacional ou conduz uma investigação orientada por hipóteses. Eles persistem mesmo quando os agentes recebem trajetórias de raciocínio quase completas e bem-sucedidas como contexto, e a consequente falta de confiabilidade se acumula ao longo de tentativas repetidas em domínios epistemicamente exigentes. Assim, os agentes atuais baseados em LLM executam fluxos de trabalho científicos, mas não exibem os padrões epistêmicos que caracterizam o raciocínio científico. A avaliação baseada em resultados não consegue detectar essas falhas, e o aprimoramento da estrutura sozinho não pode corrigi-las. Até que o próprio raciocínio se torne um alvo de treinamento, o conhecimento científico produzido por tais agentes não pode ser justificado pelo processo que o gerou.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

Cientistas de IA produzem resultados sem raciocinar cientificamente.

AI scientists produce results without reasoning scientifically

Resumo

Support