FIRE-Bench: 科学的知見の再発見におけるエージェントの評価
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
February 2, 2026
著者: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI
要旨
大規模言語モデル(LLM)を中核とする自律エージェントは、科学発見のプロセスを端から端まで加速することが期待されているが、検証可能な発見能力を厳密に評価する方法は依然として中心的な課題である。既存のベンチマークはジレンマに直面している。すなわち、自動生成された研究成果に対するLLM-as-judge評価に大きく依存するか、科学的洞察力の大まかな代理指標となる、便利だが断片的な性能指標の最適化に留まっているのである。このギャップを埋めるため、我々はFIRE-Bench(Full-cycle Insight Rediscovery Evaluation)を提案する。これは、最近の高影響力な機械学習研究から確立された知見を再発見させることでエージェントを評価するベンチマークである。エージェントには、査読済みの検証された研究から抽出された高次の研究課題のみが与えられ、アイデアの探索、実験の設計、コードの実装、計画の実行、実証データに裏打ちされた結論の導出を自律的に行わなければならない。我々は、gpt-5のような最先端LLMを基盤とする各種エージェントをFIRE-Benchで評価した。結果は、完全なサイクルでの科学研究が現在のエージェントシステムにとって依然として困難であることを示している。最も強力なエージェントでさえ、再発見の成功率は低く(F1スコア<50)、試行間でのばらつきが大きく、実験設計、実行、証拠に基づく推論において繰り返し発生する失敗モードが見られた。FIRE-Benchは、信頼性の高いエージェント駆動型科学発見に向けた進歩を測定するための、厳密で診断的な枠組みを提供する。
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.