FIRE-Bench : Évaluation des agents sur la redécouverte d'idées scientifiques
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
February 2, 2026
papers.authors: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI
papers.abstract
Les agents autonomes propulsés par de grands modèles de langage (LLM) promettent d'accélérer la découverte scientifique de bout en bout, mais évaluer rigoureusement leur capacité à effectuer des découvertes vérifiables reste un défi central. Les benchmarks existants sont confrontés à un compromis : ils reposent soit lourdement sur des évaluations par LLM-juge des productions de recherche générées automatiquement, soit optimisent des métriques de performance pratiques mais isolées qui ne constituent que des substituts grossiers à l'intuition scientifique. Pour combler cette lacune, nous présentons FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), un benchmark qui évalue les agents via la redécouverte de résultats établis issus de recherches récentes et influentes en apprentissage automatique. Les agents reçoivent uniquement une question de recherche de haut niveau extraite d'une étude publiée et vérifiée, et doivent explorer des idées, concevoir des expériences, implémenter du code, exécuter leurs plans et tirer des conclusions étayées par des preuves empiriques de manière autonome. Nous évaluons une gamme d'agents à la pointe de la technologie, reposant sur des LLM de frontière comme gpt-5, sur FIRE-Bench. Nos résultats montrent que la recherche scientifique en cycle complet reste difficile pour les systèmes d'agents actuels : même les agents les plus performants obtiennent un succès de redécouverte limité (<50 F1), présentent une variance élevée entre les exécutions et affichent des modes d'échec récurrents dans la conception expérimentale, l'exécution et le raisonnement fondé sur des preuves. FIRE-Bench fournit un cadre rigoureux et diagnostique pour mesurer les progrès vers une découverte scientifique fiable pilotée par des agents.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.