ChatPaper.aiChatPaper

FIRE-Bench: Evaluación de Agentes en el Redescubrimiento de Conocimientos Científicos

FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights

February 2, 2026
Autores: Zhen Wang, Fan Bai, Zhongyan Luo, Jinyan Su, Kaiser Sun, Xinle Yu, Jieyuan Liu, Kun Zhou, Claire Cardie, Mark Dredze, Eric P. Xing, Zhiting Hu
cs.AI

Resumen

Los agentes autónomos impulsados por modelos de lenguaje grande (LLM) prometen acelerar el descubrimiento científico de principio a fin, pero evaluar rigurosamente su capacidad para realizar descubrimientos verificables sigue siendo un desafío central. Los puntos de referencia existentes enfrentan una disyuntiva: o bien dependen en gran medida de evaluaciones de LLM-como-juez sobre los resultados de investigación generados automáticamente, o bien optimizan métricas de rendimiento convenientes pero aisladas que ofrecen proxies burdos para la perspicacia científica. Para abordar esta brecha, presentamos FIRE-Bench (Evaluación de Redescubrimiento de Perspicacia de Ciclo Completo), un punto de referencia que evalúa a los agentes a través del redescubrimiento de hallazgos establecidos provenientes de investigaciones recientes y de alto impacto en aprendizaje automático. A los agentes se les proporciona únicamente una pregunta de investigación de alto nivel extraída de un estudio verificado y publicado, y deben explorar ideas de forma autónoma, diseñar experimentos, implementar código, ejecutar sus planes y derivar conclusiones respaldadas por evidencia empírica. Evaluamos una gama de agentes de última generación con arquitecturas base de LLM de vanguardia, como gpt-5, en FIRE-Bench. Nuestros resultados muestran que la investigación científica de ciclo completo sigue siendo un desafío para los sistemas de agentes actuales: incluso los agentes más potentes logran un éxito limitado en el redescubrimiento (<50 F1), exhiben una alta varianza entre ejecuciones y muestran modos de falla recurrentes en el diseño experimental, la ejecución y el razonamiento basado en evidencia. FIRE-Bench proporciona un marco riguroso y diagnóstico para medir el progreso hacia un descubrimiento científico confiable impulsado por agentes.
English
Autonomous agents powered by large language models (LLMs) promise to accelerate scientific discovery end-to-end, but rigorously evaluating their capacity for verifiable discovery remains a central challenge. Existing benchmarks face a trade-off: they either heavily rely on LLM-as-judge evaluations of automatically generated research outputs or optimize convenient yet isolated performance metrics that provide coarse proxies for scientific insight. To address this gap, we introduce FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), a benchmark that evaluates agents through the rediscovery of established findings from recent, high-impact machine learning research. Agents are given only a high-level research question extracted from a published, verified study and must autonomously explore ideas, design experiments, implement code, execute their plans, and derive conclusions supported by empirical evidence. We evaluate a range of state-of-the-art agents with frontier LLMs backbones like gpt-5 on FIRE-Bench. Our results show that full-cycle scientific research remains challenging for current agent systems: even the strongest agents achieve limited rediscovery success (<50 F1), exhibit high variance across runs, and display recurring failure modes in experimental design, execution, and evidence-based reasoning. FIRE-Bench provides a rigorous and diagnostic framework for measuring progress toward reliable agent-driven scientific discovery.
PDF41February 5, 2026