FIRE-Bench: Evaluatie van Agents bij het Herontdekken van Wetenschappelijke Inzichten
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
February 2, 2026
Auteurs: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI
Samenvatting
Autonome agents aangedreven door grote taalmodellen (LLM's) beloven wetenschappelijke ontdekkingen end-to-end te versnellen, maar het rigoureus evalueren van hun vermogen voor verifieerbare ontdekkingen blijft een centrale uitdaging. Bestaande benchmarks kampen met een afweging: ze vertrouwen zwaar op LLM-als-beoordelaar-evaluaties van automatisch gegenereerde onderzoeksoutput of optimaliseren handige maar geïsoleerde prestatiemetrics die grove proxies vormen voor wetenschappelijk inzicht. Om deze kloof te dichten, introduceren we FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), een benchmark die agents evalueert via de herontdekking van gevestigde bevindingen uit recent, impactvol machine learning-onderzoek. Agents krijgen alleen een hoogoverzoeksvraag uit een gepubliceerde, geverifieerde studie en moeten autonoom ideeën verkennen, experimenten ontwerpen, code implementeren, hun plannen uitvoeren en conclusies afleiden die door empirisch bewijs worden ondersteund. We evalueren een reeks state-of-the-art agents met frontier LLM-backbones zoals gpt-5 op FIRE-Bench. Onze resultaten tonen aan dat volledig cyclisch wetenschappelijk onderzoek uitdagend blijft voor huidige agentsystemen: zelfs de sterkste agents behalen beperkt herontdekkingssucces (<50 F1), vertonen een hoge variantie tussen runs en tonen terugkerende faalpatronen in experimenteel ontwerp, uitvoering en evidence-based redenering. FIRE-Bench biedt een rigoureus en diagnostisch kader om de voortgang naar betrouwbare agent-gedreven wetenschappelijke ontdekking te meten.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.