FIRE-Bench: Avaliação de Agentes na Redescoberta de Insights Científicos
FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights
February 2, 2026
Autores: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI
Resumo
Agentes autónomos alimentados por grandes modelos de linguagem (LLMs) prometem acelerar a descoberta científica de ponta a ponta, mas a avaliação rigorosa da sua capacidade para descobertas verificáveis permanece um desafio central. Os *benchmarks* existentes enfrentam um dilema: ou dependem fortemente de avaliações LLM-como-juiz de resultados de pesquisa gerados automaticamente, ou otimizam métricas de desempenho convenientes mas isoladas que fornecem *proxies* grosseiros para o discernimento científico. Para colmatar esta lacuna, introduzimos o FIRE-Bench (*Full-cycle Insight Rediscovery Evaluation*), um *benchmark* que avalia agentes através redescoberta de descobertas estabelecidas a partir de pesquisas recentes e de alto impacto em *machine learning*. Aos agentes é fornecida apenas uma questão de pesquisa de alto nível extraída de um estudo verificado e publicado, e estes devem explorar ideias, projetar experiências, implementar código, executar os seus planos e derivar conclusões suportadas por evidências empíricas de forma autónoma. Avaliamos uma variedade de agentes state-of-the-art com modelos de LLM de vanguarda, como o gpt-5, no FIRE-Bench. Os nossos resultados mostram que a investigação científica de ciclo completo permanece desafiadora para os sistemas de agentes atuais: mesmo os agentes mais fortes alcançam um sucesso limitado na redescoberta (<50 F1), exibem alta variabilidade entre execuções e demonstram modos de falha recorrentes no desenho experimental, execução e raciocínio baseado em evidências. O FIRE-Bench fornece uma estrutura rigorosa e diagnóstica para medir o progresso em direção a uma descoberta científica fiável orientada por agentes.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.