Ученые в области искусственного интеллекта получают результаты, не следуя научному методу.

Аннотация

Системы на основе больших языковых моделей (LLM) все чаще развертываются для автономного проведения научных исследований, однако степень соответствия их рассуждений эпистемическим нормам, обеспечивающим самокоррекцию научного познания, остается малоизученной. В данной работе мы оцениваем научных агентов на основе LLM в восьми областях, от выполнения рабочих процессов до гипотезно-ориентированного исследования, посредством более 25 000 запусков агентов и через две взаимодополняющие призмы: (i) систематический анализ производительности, декомпозирующий вклад базовой модели и агентского каркаса, и (ii) поведенческий анализ эпистемической структуры рассуждений агента. Мы наблюдаем, что базовая модель является основным детерминантом как производительности, так и поведения, объясняя 41,4% дисперсии против 1,5% для каркаса. Во всех конфигурациях доказательства игнорируются в 68% трасс, опровергающий пересмотр убеждений происходит в 26% случаев, а конвергентные доказательства на основе множественных тестов редки. Одна и та же схема рассуждений проявляется независимо от того, выполняет ли агент вычислительный рабочий процесс или проводит гипотезно-ориентированное исследование. Они сохраняются даже когда агенты получают почти полные успешные траектории рассуждений в качестве контекста, а resulting ненадежность накапливается в ходе повторяющихся испытаний в эпистемически требовательных областях. Таким образом, современные агенты на основе LLM выполняют научные workflows, но не проявляют эпистемических паттернов, характеризующих научное мышление. Оценка, основанная на результатах, не может обнаружить эти сбои, а одна только инженерия каркаса не может их исправить. Пока само рассуждение не станет целью обучения, научное знание, производимое такими агентами, не может быть обосновано процессом, его породившим.

English

Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.

Ученые в области искусственного интеллекта получают результаты, не следуя научному методу.

AI scientists produce results without reasoning scientifically

Аннотация

Support