FIRE-Bench: Valutazione degli Agenti sul Riscoprire le Intuizioni Scientifiche

Abstract

Gli agenti autonomi alimentati da grandi modelli linguistici (LLM) promettono di accelerare la scoperta scientifica end-to-end, ma valutare rigorosamente la loro capacità di compiere scoperte verificabili rimane una sfida centrale. Gli attuali benchmark presentano un compromesso: si basano pesantemente su valutazioni LLM-as-judge di output di ricerca generati automaticamente oppure ottimizzano metriche di performance convenienti ma isolate, che forniscono proxy grossolani per l'intuizione scientifica. Per colmare questa lacuna, introduciamo FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), un benchmark che valuta gli agenti attraverso la riscoperta di risultati consolidati da recenti ricerche ad alto impatto nel machine learning. Agli agenti viene fornita solo una domanda di ricerca di alto livello estratta da uno studio pubblicato e verificato, e devono esplorare autonomamente idee, progettare esperimenti, implementare codice, eseguire i propri piani e derivare conclusioni supportate da evidenze empiriche. Valutiamo una gamma di agenti all'avanguardia con architetture LLM di frontiera come gpt-5 su FIRE-Bench. I nostri risultati mostrano che la ricerca scientifica a ciclo completo rimane impegnativa per gli attuali sistemi di agenti: anche gli agenti più potenti ottengono un successo di riscoperta limitato (<50 F1), mostrano un'elevata varianza tra le esecuzioni e presentano modalità di fallimento ricorrenti nella progettazione sperimentale, nell'esecuzione e nel ragionamento basato su evidenze. FIRE-Bench fornisce un framework rigoroso e diagnostico per misurare i progressi verso una scoperta scientifica affidabile guidata da agenti.

English

Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.

FIRE-Bench: Valutazione degli Agenti sul Riscoprire le Intuizioni Scientifiche

FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights

Abstract

Support