AI科学者は科学的に推論せずに結果を生み出す
AI scientists produce results without reasoning scientifically
April 20, 2026
著者: Martiño Ríos-García, Nawaf Alampara, Chandan Gupta, Indrajeet Mandal, Sajid Mannan, Ali Asghar Aghajani, N. M. Anoop Krishnan, Kevin Maik Jablonka
cs.AI
要旨
大規模言語モデル(LLM)ベースのシステムが自律的に科学研究を行うために導入されるケースが増えているが、その推論が科学的探求を自己修正可能にする認識論的規範に従っているかどうかは十分に理解されていない。本研究では、LLMベースの科学エージェントを、ワークフロー実行から仮説駆動型探求に至る8つの領域にわたり、25,000回以上のエージェント実行を通じて2つの相補的な視点から評価する:(i) 基本モデルとエージェントスキャフォールドの寄与を分解する体系的な性能分析、および (ii) エージェント推論の認識論的構造に関する行動分析。その結果、性能と行動の主要な決定要因は基本モデルであり、説明された分散の41.4%を占める(スキャフォールドは1.5%)ことが観察された。全ての構成において、証拠は68%のトレースで無視され、反証駆動型の信念修正は26%で発生し、収束的な複数テストによる証拠は稀であった。エージェントが計算ワークフローを実行する場合と仮説駆動型探求を行う場合とで、同じ推論パターンが現れた。これらの傾向は、エージェントがほぼ完全な成功推論軌跡を文脈として受け取った場合でも持続し、その結果生じる信頼性の低さは、認識論的に要求の厳しい領域での反復試行において累積する。したがって、現在のLLMベースのエージェントは科学ワークフローを実行するが、科学的推論を特徴づける認識論的パターンを示さない。結果ベースの評価ではこれらの失敗を検出できず、スキャフォールドの設計だけではこれを修正できない。推論そのものが訓練目標とならない限り、このようなエージェントによって生成される科学的知識は、それを生み出したプロセスによって正当化されることはない。
English
Large language model (LLM)-based systems are increasingly deployed to conduct scientific research autonomously, yet whether their reasoning adheres to the epistemic norms that make scientific inquiry self-correcting is poorly understood. Here, we evaluate LLM-based scientific agents across eight domains, spanning workflow execution to hypothesis-driven inquiry, through more than 25,000 agent runs and two complementary lenses: (i) a systematic performance analysis that decomposes the contributions of the base model and the agent scaffold, and (ii) a behavioral analysis of the epistemological structure of agent reasoning. We observe that the base model is the primary determinant of both performance and behavior, accounting for 41.4% of explained variance versus 1.5% for the scaffold. Across all configurations, evidence is ignored in 68% of traces, refutation-driven belief revision occurs in 26%, and convergent multi-test evidence is rare. The same reasoning pattern appears whether the agent executes a computational workflow or conducts hypothesis-driven inquiry. They persist even when agents receive near-complete successful reasoning trajectories as context, and the resulting unreliability compounds across repeated trials in epistemically demanding domains. Thus, current LLM-based agents execute scientific workflows but do not exhibit the epistemic patterns that characterize scientific reasoning. Outcome-based evaluation cannot detect these failures, and scaffold engineering alone cannot repair them. Until reasoning itself becomes a training target, the scientific knowledge produced by such agents cannot be justified by the process that generated it.